Differences

This shows you the differences between two versions of the page.

--- 수학:인자_그래프 [2026/03/30 10:42] – [온사거 반작용항] admin
+++ 수학:인자_그래프 [2026/04/01 13:39] (current) – [$p$-스핀 유리 모형] admin
@@ Line 139: / Line 139: @@
 $$p(x_i) = \frac{1}{Z} f_{(i)}(x_i) \prod_{k \in \hat\partial i} \left[ \sum_{x_k} f_{(i,k)}(x_i,x_k) \mu_{k\to(i,k)}(x_k) \right].$$
-====온사거 반작용항====
+====온사거 보정항====
 비록 트리는 아니지만 이 결과가 [[물리:셰링턴-커크패트릭_모형|셰링턴-커크패트릭 모형]]에 근사적으로 적용된다고 가정하자. 하나의 스핀은 다른 스핀 모두와 연결되어 있으므로 $\hat\partial i = \{1,2,\ldots, N\} - \{i\}$이다.
 \begin{eqnarray*}
@@ Line 176: / Line 176: @@
 \end{eqnarray*}
-$\mathbb{E}_i$가 분자와 분모에 모두 등장하므로 $\mu_{k\to (i,k)}$에 상수를 곱해도 무방하다. $\mathbb{E}_i 1 = 1$이 되게끔 정규화를 시행하고 아래의 양을 정의하자:
+$\mathbb{E}_i$가 분자와 분모에 모두 등장하므로 $\mu_{k\to (i,k)}$에 상수를 곱해도 무방하다. $\mathbb{E}_i 1 = 1$이 되게끔 정규화
+$$\mu_{k\to (i,k)}(\sigma_k = +1) + \mu_{k\to (i,k)}(\sigma_k = -1) = 1$$
+을 시행하고 아래의 양을 정의하자:
 $$m_{k\to i} \equiv \mathbb{E}_i \sigma_k.$$
 앞서의 $N=3$의 예에서 $i=0$이고 $k=1$이라면
@@ Line 184: / Line 186: @@
 && - \mu_{1\to (0,1)} (\sigma_1=-1) \times \mu_{2\to (0,2)} (\sigma_2=+1)\\
 && - \mu_{1\to (0,1)} (\sigma_1=-1) \times \mu_{2\to (0,2)} (\sigma_2=-1)\\
-&=& \mu_{1\to (0,1)} (\sigma_1=+1) - \mu_{1\to (0,1)} (\sigma_1=-1)\\
+&=& \mu_{1\to (0,1)} (\sigma_1=+1) - \mu_{1\to (0,1)} (\sigma_1=-1),
-&=& 2\mu_{1\to (0,1)} (\sigma_1=+1) - 1.
 \end{eqnarray*}
 $k=2$라면
@@ Line 193: / Line 194: @@
 && + \mu_{1\to (0,1)} (\sigma_1=-1) \times \mu_{2\to (0,2)} (\sigma_2=+1)\\
 && - \mu_{1\to (0,1)} (\sigma_1=-1) \times \mu_{2\to (0,2)} (\sigma_2=-1)\\
-&=& \mu_{2\to (0,2)} (\sigma_2=+1) - \mu_{2\to (0,2)} (\sigma_2=-1)\\
+&=& \mu_{2\to (0,2)} (\sigma_2=+1) - \mu_{2\to (0,2)} (\sigma_2=-1)
-&=& 2\mu_{2\to (0,2)} (\sigma_2=+1) - 1.
 \end{eqnarray*}
+이다.
 따라서 $m_{k\to i}$는 변수 노드 $k$에서 인자 노드 $(i,k)$로 보내는 메시지가 $\sigma_k=\pm 1$에서 보이는 값의 차이라고 할 수 있다. 이는 값이 $+1$일 확률이 $\mu_{k\to (i,k)} (\sigma_k=+1)$이고 $-1$일 확률이 $\mu_{k\to (i,k)} (\sigma_k=-1)$인 이항 분포의 평균과 같다.
 다음과 같은 양을 정의하면
@@ Line 223: / Line 224: @@
 &\approx& m_{k\to i} + \frac{1}{\sqrt{N}} \beta J_{ik} m_{i\to k} \left( 1-m_{k\to i}^2 \right).
 \end{eqnarray*}
+마지막 줄에서 첫 항이 $m_{k\to i}$으로 표현되는 이유는 이렇다: 그 앞 줄의 첫째 항을 보면 $j=i$인 경우가 셈에서 빠지는데, 이는 마치 그 부분을 계산할 때에만 잠시 $J_{ik}=0$으로 놓은 것과 같다. 앞서 셈법의 요약 3번을 보면 $p(\sigma_k)$와 $\mu_{k\to (i,k)}(\sigma_k)$ 사이에는 밀접한 관련이 있는데, 바로 $\mu_{(i,k)\to k}(\sigma_k)=1$로 놓으면 두 양이 같아진다. 이 역시 $J_{ik}=0$으로 놓는 것으로 생각할 수 있다. 즉 $j=i$를 빼고서 계산한 것은 $p(\sigma_k)$ 대신에 $\mu_{k \to (i,k)}(\sigma_k)$를 가지고 평균하는 것과 같다. 따라서 그 항은 $m_k$ 대신에 $m_{k\to i}$를 준다.
 중요한 사실은, $m_k-m_{k\to i}$이 $1/\sqrt{N}$ 정도라는 점이다. 이 결과를 $m_i$에 관한 위의 식에 다시 대입하고 $1/N$보다 고차인 항을 무시하면,
 $$m_i \approx \tanh \left[ \beta h + \sum_{k\neq i} \frac{1}{\sqrt{N}} \beta J_{ik} m_k - \beta^2 m_i \sum_{k\neq i} \frac{J_{ik}^2}{N} \left(1-m_k^2\right) \right].$$
@@ Line 230: / Line 233: @@
 &\approx& \tanh \left[ \beta h + \sum_{k\neq i} \frac{1}{\sqrt{N}} \beta J_{ik} m_k - \beta^2 m_i J^2 \left( 1 - \frac{1}{N} \sum_{k=1}^N m_k^2\right) \right].
 \end{eqnarray*}
-[[물리:평균장_이론|평균장 이론]]에서 기대되는 바와 비교하면 $\tanh$ 안에 항이 하나 더 들어있는 것을 알게 되는데, 이를 온사거 반작용항(Onsager reaction term)이라고 부른다.
+[[물리:평균장_이론|평균장 이론]]에서 기대되는 바와 비교하면 $\tanh$ 안에 항이 하나 더 들어있는 것을 알게 되는데, 이를 온사거 보정항(Onsager correction term)이라고 부른다.
 ====복제 대칭 해====
@@ Line 247: / Line 250: @@
 \end{eqnarray*}
 이는 [[물리:복제_대칭_해|복제 대칭 해]]에서 얻은 결과와 동일한 것으로서, 고온에서 성립하는 식이다.
+=====$p$-스핀 유리 모형=====
+[[물리:p-스핀_유리_모형|$p$-스핀 유리 모형]]은 [[물리:셰링턴-커크패트릭_모형|셰링턴-커크패트릭 모형]]를 일반화하여 $p$개의 스핀이 함께 상호작용하는 모형이다.
+본래는 계 안에서 임의로 어떤 $p$개의 스핀을 잡아도 상호작용이 존재하는 모형이다.
+그러나 근사식을 유도하기 위해 먼저 공간적으로 트리 구조를 이루고 있다고 가정하자. $p=3$을 예로 들어 어떤 변수 노드 $x_0$를 중심으로 인자 그래프를 그리면 다음과 같은 모양이 될 것이다.
+{{:수학:factor_graph6.png?400|}}
+\begin{eqnarray*}
+p(x_0) &=& \left[\sum_{x_1,x_2} f_{(0,1,2)}(x_0,x_1,x_2) \mu_{1\to(0,1,2)}(x_1) \mu_{2\to(0,1,2)}(x_2) \right] \times \left[\sum_{x_3,x_4} f_{(0,3,4)}(x_0,x_3,x_4) \mu_{3\to(0,3,4)}(x_3) \mu_{4\to(0,3,4)}(x_4) \right]\\
+&& \times \left[\sum_{x_5,x_6} f_{(0,5,6)}(x_0,x_5,x_6) \mu_{5\to(0,5,6)}(x_5) \mu_{6\to(0,5,6)}(x_6) \right] \times \left[\sum_{x_7,x_8} f_{(0,7,8)}(x_0,x_7,x_8) \mu_{7\to(0,7,8)}(x_7) \mu_{8\to(0,7,8)}(x_8) \right] \times f_{(0)} (x_0)
+\end{eqnarray*}
+정규화가 미리 되어있지 않다고 하면 분모에 정규화 상수를 써주고 스핀에 대한 표기법으로 적어주자. 모든 스핀이 연결된 상황에서도 위의 식이 성립한다고 보기 때문에 근사식이다. 편의상 $p=3$이라고 하고 적은 다음 일반화할 것이다. 그리고 앞 절과 달리, 평균 $0$이고 분산이 $J^2 p! / N^{p-1}$인 정규분포에서 무작위로 결합상수들을 추출하였다고 가정하여 $N$에 대한 의존성을 결합상수 안에 집어넣을 것이다. 결합상수에 달린 인덱스에 중복이 있으면 모두 $0$으로 간주한다. 즉 $J_{iij} = J_{ijj} = \ldots = 0$이다. 그리고 동일한 $p$ 스핀 집합을 여러 번 셈하는 일을 피하기 위해, 좌변에 고정된 $i$를 제외한 나머지 $k_1$, $k_2$ 등의 인덱스는 오름차순으로 정렬한다.
+\begin{eqnarray*}
+p(\sigma_i) &\approx& \frac{e^{\beta h \sigma_i} \prod_{k_1<k_2} \sum_{\sigma_{k_1}, \sigma_{k_2}} \exp \left( \beta J_{ik_1k_2} \sigma_i \sigma_{k_1} \sigma_{k_2} \right)  \mu_{k_1\to (i,k_1,k_2)}(\sigma_{k_1}) \mu_{k_2\to (i,k_1,k_2)}(\sigma_{k_2})}{ \sum_{\tau = \pm 1} e^{\beta h \tau} \prod_{k_1<k_2} \sum_{\sigma_{k_1}, \sigma_{k_2}} \exp \left( \beta J_{ik_1k_2} \tau \sigma_{k_1} \sigma_{k_2} \right)  \mu_{k_1\to (i,k_1,k_2)}(\sigma_{k_1}) \mu_{k_2\to (i,k_1,k_2)}(\sigma_{k_2})}.
+\end{eqnarray*}
+메시지의 곱들로 정의되는 곱측도(product measure)에 대한 평균을 $\mathbb{E}_i$로 정의하자. $m_{k\to i} \equiv \mathbb{E}_i \sigma_k$이다.
+이어 $\sigma_i$의 평균 $m_i = p(\sigma_i=+1) - p(\sigma_i = -1)$을 적어보면,
+\begin{eqnarray*}
+m_i &\approx& \frac{\mathbb{E}_i \sinh \left( \sum_{k_1<k_2} \beta J_{ik_1k_2} \sigma_{k_1} \sigma_{k_2} + \beta h \right) }{\mathbb{E}_i \cosh \left( \sum_{k_1<k_2} \beta J_{ik_1k_2} \sigma_{k_1} \sigma_{k_2} + \beta h \right)}.
+\end{eqnarray*}
+이때 다음의 양을 정의하자.
+$$X_i \equiv \sum_{k_1<k_2} \beta J_{ik_1k_2} \left( \sigma_{k_1} \sigma_{k_2} - m_{k_1\to i} m_{k_2\to i} \right).$$
+$N$이 충분히 클 때에 정규 분포를 따를 것이므로 $m_i$에 대한 식을 다음처럼 적을 수 있다:
+\begin{eqnarray*}
+m_i &\approx& \tanh \left( \beta h + \sum_{k_1<k_2} \beta J_{ik_1k_2} m_{k_1\to i} m_{k_2\to i} \right).
+\end{eqnarray*}
+$\tanh$ 안에 있는 식들을 정리하기 위해 다음처럼 고쳐 적자:
+\begin{eqnarray*}
+m_k &\approx& \tanh \left( \beta h + \sum_{j_1<j_2} \beta J_{kj_1j_2} m_{j_1\to k} m_{j_2\to k} \right)\\
+&=& \tanh \left( \beta h + \sum_{j_1<j_2\\j_1\neq i} \beta J_{kj_1j_2} m_{j_1\to k} m_{j_2\to k} + \sum_{j_2} \beta J_{kij_2} m_{i\to k} m_{j_2\to k} \right)\\
+&\approx& \tanh \left( \beta h + \sum_{j_1<j_2\\j_1\neq i} \beta J_{kj_1j_2} m_{j_1\to k} m_{j_2\to k} \right) + \left( \sum_{j_2} \beta J_{kij_2} m_{i\to k} m_{j_2\to k} \right) \left[ 1 - \tanh^2 \left( \beta h + \sum_{j_1<j_2\\j_1\neq i} \beta J_{kj_1j_2} m_{j_1\to k} m_{j_2\to k} \right) \right]\\
+&\approx& m_{k\to i} + \left( \sum_{j_2} \beta J_{kij_2} m_{i\to k} m_{j_2\to k} \right) \left(1- m_{k\to i}^2 \right).
+\end{eqnarray*}
+따라서 $m_{k\to i}$를 $m_k$와 보정항으로 근사하여 다음처럼 적을 수 있다:
+\begin{eqnarray*}
+m_{k\to i} &\approx& m_k - \left( \sum_j \beta J_{kij} m_i m_j \right) \left(1- m_k^2 \right)\\
+&=&  m_k - \left[ \beta \left(1- m_k^2 \right) \right] \left( m_i \sum_j J_{kij} m_j \right)\\
+&=& m_k - \chi_k h_{k\to i}.
+\end{eqnarray*}
+$m_k$에서 감해지고 있는 부분이 온사거 보정항에 해당한다.
+일반적인 $p$에 대해서는 표현식들이 이렇게 정의된다:
+\begin{eqnarray*}
+\chi_k &\equiv& \beta \left(1 - m_k^2 \right)\\
+h_{k\to i} &\equiv& m_i \sum_{j_3 <\ldots <j_p} J_{kij_3\ldots j_p} m_{j_3} \cdots m_{j_p}\\
+&=& m_i \frac{1}{(p-2)!} \sum_{j_3, \ldots, j_p} J_{kij_3\ldots j_p} m_{j_3} \cdots m_{j_p}.
+\end{eqnarray*}
+이제 이 결과들을 $m_i$에 대한 식에 다시 대입한다:
+\begin{eqnarray*}
+m_i &\approx& \tanh \left( \beta h + \sum_{k_2<\cdots<k_p} \beta J_{ik_2\ldots k_p} m_{k_2\to i} \cdots m_{k_p\to i} \right)\\
+&\approx& \tanh \left[ \beta h + \sum_{k_2<\cdots<k_p} \beta J_{ik_2\ldots k_p} \left( m_{k_2} - \chi_{k_2} h_{k_2\to i} \right) \cdots \left( m_{k_p} - \chi_{k_p} h_{k_p\to i} \right) \right]\\
+&=& \tanh \left[ \beta h + \frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} \left( m_{k_2} - \chi_{k_2} h_{k_2\to i} \right) \cdots \left( m_{k_p} - \chi_{k_p} h_{k_p\to i} \right) \right].
+\end{eqnarray*}
+전개 후 결합상수의 낮은 차수에 대해서만 남겨두면 다음과 같고
+\begin{eqnarray*}
+\frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} \left( m_{k_2} - \chi_{k_2} h_{k_1\to i} \right) \cdots \left( m_{k_p} - \chi_{k_p} h_{k_p\to i} \right)
+&\approx& \frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} m_{k_2} \cdots m_{k_p} - \frac{\beta}{(p-1)!} \sum_{i,k_2, \ldots, k_p} J_{ik_2 \ldots k_p} \left( \chi_{k_2} h_{k_2\to i} m_{k_3} \cdots m_{k_p} + \ldots + \chi_{k_p} h_{k_p\to i} m_{k_2} \cdots m_{k_{p-1}} \right)
+\end{eqnarray*}
+이 중 마지막 항은 다음처럼 고쳐 쓸 수 있다:
+\begin{eqnarray*}
+&&\frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} \left( \chi_{k_2} h_{k_2\to i} m_{k_3} \cdots m_{k_p} + \ldots + \chi_{k_p} h_{k_p\to i} m_{k_2} \cdots m_{k_{p-1}} \right)\\
+&\approx& \frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} m_{k_3} \cdots m_{k_p} \times (p-1) \chi_{k_2} h_{k_2\to i}\\
+&=& \frac{\beta}{(p-2)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} m_{k_3} \cdots m_{k_p} \times \chi_{k_2} h_{k_2\to i} \\
+&=& \frac{\beta^2}{(p-2)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} m_{k_3} \cdots m_{k_p} \times \left(1-m_{k_2}^2 \right) \left[ m_i \frac{1}{(p-2)!} \sum_{j_3 \ldots j_p} J_{k_2ij_3\ldots j_p} m_{j_3} \cdots m_{j_p} \right]\\
+&=& \frac{\beta^2 m_i}{\left[(p-2)!\right]^2} \sum_{k_2} \left(1-m_{k_2}^2 \right) \left[ \sum_{k_3,\ldots, k_p} J_{ik_2 \ldots k_p} m_{k_3} \cdots m_{k_p} \right]^2.
+\end{eqnarray*}
+마지막의 $\left[ \ldots \right]^2$에서, 대각항들은 제곱의 합이어서 양의 기여를 하는 반면 교차항들은 +/-의 난수이므로 평균적으로 상쇄되어 사라진다:
+\begin{eqnarray*}
+\left[ \sum_{k_3,\ldots, k_p} J_{ik_2 \ldots k_p} m_{k_3} \cdots m_{k_p} \right]^2 &\approx& (p-2)! \sum_{k_3,\ldots, k_p} J_{ik_2 \ldots k_p}^2 m_{k_3}^2 \cdots m_{k_p}^2.
+\end{eqnarray*}
+순열(permutation)에 대해 대칭적인 항들이 좌변의 합에는 $\left[(p-2)!\right]^2$개 등장하는 반면 우변의 합에서는 $(p-2)!$개만 등장하므로 그 앞에 $(p-2)!$을 써주었다.
+이제 결과들을 모아서 써보자.
+\begin{eqnarray*}
+m_i &\approx& \tanh \left[ \beta h + \frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} m_{k_2} \cdots m_{k_p} - \frac{\beta^2 m_i}{\left[(p-2)!\right]^2} \sum_j \left(1-m_j^2 \right) (p-2)! \sum_{k_3,\ldots, k_p} J_{ij k_3 \ldots k_p}^2 m_{k_3}^2 \cdots m_{k_p}^2 \right]\\
+&\approx& \tanh \left[ \beta h + \frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} m_{k_2} \cdots m_{k_p} - \frac{\beta^2 m_i}{(p-2)!} \sum_j \left(1-m_j^2 \right) \sum_{k_3,\ldots, k_p} J_{ij k_3 \ldots k_p}^2 m_{k_3}^2 \cdots m_{k_p}^2 \right]
+\end{eqnarray*}
+$N$이 클 때 $J_{ijk_3 \ldots k_p}$는 $m_j, m_{k_3},\ldots, m_{k_p}$ 등과 무관하므로,
+$$q \equiv \frac{1}{N} \sum_{i=1}^N m_i^2$$
+으로 정의하면 상관함수는 모두 쪼개져서 다음처럼 쓰여진다:
+$$\frac{1}{N} \sum_{k_p} J_{ijk_3 \ldots k_p}^2 m_{k_p}^2 \approx \langle J_{ijk_3 \ldots k_p}^2 \rangle \langle m_{k_p}^2 \rangle = \frac{J^2 p!}{2N^{p-1}}q.$$
+결론적으로,
+\begin{eqnarray*}
+m_i &\approx& \tanh \left\{ \beta h + \frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} m_{k_2} \cdots m_{k_p} - \frac{\beta^2 m_i}{(p-2)!} \sum_j \left[ \left(1-m_j^2 \right) \frac{J^2 p!}{2N^{p-1}} N^{p-2} q^{p-2} \right] \right\}\\
+&=& \tanh \left[ \beta h + \frac{\beta}{(p-1)!} \sum_{k_2, \ldots, k_p} J_{ik_2 \ldots k_p} m_{k_2} \cdots m_{k_p} - m_i (\beta J)^2 \frac{p(p-1)}{2} (1-q) q^{p-2} \right].
+\end{eqnarray*}
+$\partial q/\partial m_i = 2m_i / N$에 유의하면, $h=0$일 때 위의 식은 아래의 자유 에너지 밀도 $f$를 $m_i$로 미분하여 얻는 결과와 같다:
+\begin{eqnarray*}
+\beta f &=& \frac{1}{2N} \sum_i \left[ (1+m_i) \ln \left( \frac{1+m_i}{2} \right) + (1-m_i) \ln \left( \frac{1-m_i}{2} \right) \right] - \frac{\beta}{N} \sum_{i_1<\cdots<i_p} J_{i_1 \ldots i_p} m_{i_1} \cdots m_{i_p} - \frac{(\beta J)^2}{4} \left[ (p-1)q^p - pq^{p-1} + 1 \right].
+\end{eqnarray*}
+가장 마지막의 $+1$은 $m_i$로의 미분에 영향을 주지 않지만, 이것을 더함으로써 $\forall m_i=0$일 때 [[물리:p-스핀_유리_모형|$p$-스핀 유리 모형]]의 복제 대칭 해에서 얻는 $f$와 같은 결과를 얻는다.
 ======같이 보기======
   * [[물리:tap_방정식|TAP 방정식]]
   * [[물리:셰링턴-커크패트릭_모형|셰링턴-커크패트릭 모형]]
+  * [[물리:p-스핀_유리_모형|$p$-스핀 유리 모형]]
+  * [[물리:구면_p-스핀_유리_모형|구면 $p$-스핀 유리 모형]]
 ======참고문헌======
   * Christopher Bishop, //Pattern Recognition and Machine Learning// (Springer, New York, 2006).
@@ Line 255: / Line 355: @@
   * Marc Mézard and Andrea Montanari, //Information, Physics, and Computation// (Oxford University Press, Oxford, 2009).
   * https://mlg.eng.cam.ac.uk/teaching/4f13/2526/
+  * H. Rieger, // The number of solutions of the Thouless-Anderson-Palmer equations for p-spin-interaction spin glasses//, [[https://doi.org/10.1103/PhysRevB.46.14655|Phys. Rev. B 46, 14655 (1992)]].