베이즈의 정리

조건부 확률의 정의로부터 $$ P(B|A) = \frac{P(A \cap B)}{P(A)}= \frac{P(A \cap B)}{P(A \cap B) + P(A \cap \overline{B})} = \frac{P(A|B)P(B)}{P(A|B)P(B) + P(A|\overline{B})P(\overline{B})}. $$ 이 식은 $P(A|B)$와 $P(B|A)$를 연결지어준다.

분모에 등장하는 것처럼 가능한 $B$의 사건에 대해 더함으로써 얻어지는 확률은 주변(marginal) 확률이라고도 불린다: $$P(A) = P(A \cap B) + P(A \cap \overline{B}).$$

베이즈의 정리를 이용한 추론

첫 번째 예

5개의 공이 담긴 항아리가 있다. 공의 일부는 빨간색, 나머지는 녹색이지만 몇 개가 빨간색인지는 모른다. 확률변수 $X$가 항아리 속 빨간색 공의 갯수라고 하자. $X$의 가능한 값은 $x_i = 0, \ldots, 5$이다. 아무 정보가 없으므로 모든 값들이 동등하게 가능하다고 생각하자. 그러면 사전 확률은 $g(0) = g(1) = \ldots = g(5) = 1/6$이다.

무작위로 공을 하나 골라내자. 확률 변수 $Y$는 빨간 공이 나오면 1이고 아니면 0이다. 그러면 조건부 확률은 $P(Y=1|X=x_i) = i/5$이고 $P(Y=0|X=x_i) = (5-i)/5$이다. 이를 '가능도(likelihood)'라고 부른다. 결합 확률(빨간 공이 $x_i$ 개 있고 내가 빨간 공을 뽑을 확률)은 가능도에 사전 확률을 곱하면 되므로(주변확률이 $1/2$임에 유의한다), 만일 빨간 공이 나왔다고 하면 아래 표처럼 사후 확률을 얻는다. 즉 이것이 빨간 공을 관찰한 후 내가 가지고 있는 $X$에 대한 믿음을 나타낸다.

$x_i$	사전 확률	가능도	사전$\times$가능도	사후 확률
0	1/6	0/5	0/30	0/15
1	1/6	1/5	1/30	1/15
2	1/6	2/5	2/30	2/15
3	1/6	3/5	3/30	3/15
4	1/6	4/5	4/30	4/15
5	1/6	5/5	5/30	5/15
합			1/2	1

공을 하나 더 뽑아보자 (빼낸 공을 다시 집어넣지 않는다). 이번에는 녹색 공이 나왔다고 해보자. 앞에서의 사후 확률이 이번에는 사전 확률이 되고 여기에서 갱신되는 확률 분포가 아래 표에 있다.

$x_i$	사전 확률	가능도	사전$\times$가능도	사후 확률
0	0	??	0	0
1	1/15	4/4	1/15	1/5
2	2/15	3/4	1/10	3/10
3	3/15	2/4	1/10	3/10
4	4/15	1/4	1/15	1/5
5	5/15	0/4	0	0
합			1/3	1

이렇게 한 번씩 사후 확률을 갱신하는 방법도 있고 두 번의 관찰을 동시에 고려해서 사후 확률을 만드는 방법도 있을 것이다. 이 둘은 정확히 같은 결과를 준다.

두 번째 예

큰 모집단에서 $p$라는 비율이 어떤 특징을 가지고 있고 나머지는 가지고 있지 않다고 하자. $n$ 번을 독립적으로 시도해서 그 특징을 가진 사람 $y$ 명을 뽑을 확률은 이항 분포로 주어질 것이다: $$f(y|p) = \binom{n}{y} p^y (1-p)^{n-y}.$$ $y$를 고정한 상태에서 $p$가 변화한다고 생각하면 위의 식이 가능도가 된다.

베이즈의 정리를 사용하려면 $p$의 값에 대한 우리의 믿음을 반영하는 사전 확률 $g(p)$가 있어야 한다. 사후 확률은 사전 확률이 가능도를 곱해서 얻어진다: $g(p|y) \propto g(p) \times f(y|p)$. 위의 예에서도 보듯이 분모에 주변확률이 있어야 등호로 쓸 수 있는데 이는 상대적인 비율만을 바꾸어줄 뿐 크게 중요하지 않다.

사전 확률로 베타 함수를 사용한다고 해보자: $$g(\pi; a,b) = \frac{\Gamma(a+b)}{\Gamma(a) \Gamma(b)} p^{a-1} (1-p)^{b-1}.$$ 이 경우 사후 확률, 즉 해당 특성을 지닌 $y$명을 관찰한 상황에서 $p$의 확률 밀도 분포는 다시 베타 함수 꼴로 주어진다: $$g(\pi |y) = \frac{\Gamma(n+a+b)}{\Gamma(y+a) \Gamma(n-y+b)} p^{a+y-1} (1-p)^{b+n-y-1}.$$

참고로 베타 함수 $B(a,b)$의 평균은 $\mu = \frac{a}{a+b}$이고 표준편차는 $\sigma = \sqrt{\frac{ab}{(a+b)^2 (a+b+1)}}$이다. 이항분포의 경우와 비교해보면, 크기가 $n_{eq} = a+b+1$인 무작위 표본에 대응된다고 해석할 수 있다.

마을에 도박장이 들어서는 데 찬성하는 주민들의 비율 $p$에 대해, 영희와 철수가 각기 믿는 바가 있다고 하자. 영희의 믿음은 평균이 0.2이고 표준편차는 0.08이리라는 것이다. 이 $\mu$와 $\sigma$에 대한 식을 풀어 $a$와 $b$를 구하면 그녀의 믿음을 기술하는 베타 함수 $B(a,b)$를 정할 수 있는데, $a = 4.8$, $b=19.2$이다.

다른 한편, 철수는 최근에 이사를 와서 마을 사정을 잘 모르고, 따라서 어떤 $p$도 선호하지 않는 균일한 사전 확률 분포를 택했다. 이는 $a=b=1$에 해당한다.

그들은 50명의 주민을 골라서 도박장에 대한 의견을 물었다. 그랬더니 $y=12$ 명이 찬성의 뜻을 밝혔다. 그 결과 영희의 사후 확률은 $B(4.8+12, 19.2+38)$이 되었고 철수의 사후 확률은 $B(1+12, 1+38)$이 되었다. 아래 그림에서 보듯, 비록 철수와 영희의 처음 믿음은 사뭇 달랐지만 그들이 도달한 결론은 매우 비슷하다.

함께 보기

확률

네덜란드식 마권

베이지언 자백약

참고문헌

William M. Bolstad, Introduction to Bayesian Statistics (Wiley, Hoboken, NJ, 2004).