数学部

チャットワークの部活の１つに数学部があります。毎週１日朝各自で数学の本を読み進めることが活動内容です。最近ではCoding the Matrixという本で線形代数を学んでいます。

今日は線形代数ではないですが、確率論の基礎をなすベイズの定理について書いておこうと思います。

ベイズの定理とは

ベイズの定理とは、ある事象Xを観測したもとでの事象Yが起きる事後確率\(P(Y | X)\)が、事象Yが起きる事前確率\(P(Y)\)と事象Yをもとにどのぐらい事象Xを再現可能かを示す尤度関数\(P(X | Y)\)との積に比例するというものです。

\(P(Y | X) = \frac{P(X | Y)P(Y)}{P(X)}\)

ここで分母のP(X)は事後確率が正規化されて\( 0 \le P(Y | X) \le 1 \)を満たすことを保証するものと解釈できます。

ベイズの定理を使えば、「A、B２つの箱の中に果物がいくつか入っている。取り出した果物がオレンジだったときにAの箱から取り出した確率はいくらか？」といった問題を解いたりすることができます。

この定理は同時確率の定義と、同時確率の対称性から簡単に導き出すことができます。

事象XとYが同時に起きる確率は、事象Xが起きて、かつXが起きたもとでYが起きた確率との積となるので、以下のように定義されます。

\( P(X, Y) = P(Y|X)P(X) \)

ここで、事象XとYが同時に起こる確率と、事象YとXが同時に起きる確率は等しいので、

\( P(X, Y) = P(Y, X) \)

のように同時確率は対称になります。ここから、

\( P(Y | X){P(X)} = P(X | Y)P(Y) \)

\( P(Y | X) = \frac{P(X | Y)P(Y)}{P(X)} \)

が導けます。

多変数の場合のベイズの定理

変数が増えても、同時確率の定義と、同時確率の対称性に戻ればベイズの定理は導出できます。

条件部の変数が３つの時を例にすると、ベイズの定理は以下のようになります。

\( P(Y, X_3, X_2, X_1) = \frac{P(X_3 |Y, X_2 X_1)P(Y| X_2 X_1)}{P(X_3| X_2 X_1)} \)

条件部の変数が１つのときと比較すると、単に条件部が増えた変数分付与されているだけです。

この式より、３個のデータ\( X_1, X_2, X_3 \)を観測したあとの事後確率\( P(Y|X_3, X_2, X_1) \)は、２個のデータを観測したあとの事後確率\( P(Y| X_2, X_1) \)に比例することがわかります。このときの尤度関数は\( P(X_3|Y, X_2, X_1) \)です。これは新しい観測結果が１つ前の観測結果から評価できる点で興味深いものです。

多変数のときのベイズの定理が成り立つことを示すために、4つの事象\( Y, X_1, X_2, X_3 \)の同時確率から、同時確率の定義\( P(X, Y) = P(Y|X)P(X) \)を順番に適用していきます。適用する際に、条件部がある場合は事前確率に条件部も引き継がれることに注意してください。条件になっている事象が起きたことを前提としているためです。

\( P(Y, X_3, X_2, X_1) \)

\( = P(Y, X_3, X_2| X_1)P(X_1) \)

\( = P(Y, X_3| X_2, X_1)P(X_2| X_1)p(X_1) \)

\( = P(Y |X_3, X_2 X_1)P(X_3| X_2 X_1)P(X_2| X_1)P(X_1) \)

\( X_3, Y \)を入れ替えても等価なので、

\( p(Y, X_3, X_2, X_1) = P(X_3 |Y, X_2 X_1)P(Y| X_2 X_1)P(X_2| X_1)P(X_1) \)

よって、

\( P(Y |X_3, X_2 X_1) = \frac{P(X_3 |Y, X_2 X_1)P(Y| X_2 X_1)P(X_2| X_1)P(X_1)}{P(X_3| X_2 X_1)P(X_2| X_1)P(X_1)} \)

\( = \frac{P(X_3 |Y, X_2 X_1)P(Y| X_2 X_1)}{P(X_3| X_2 X_1)} \)

まとめ

以上を一般化したうえでまとめようと思います。

ベイズの定理では、事後確率\(P(Y | X)\)が事前確率\(P(Y)\)と尤度関数\(P(X | Y)\)との積に比例することを示します。

\( P(Y | X) = \frac{P(X | Y)P(Y)}{P(X)} \)

多変数の場合では、N個のデータ \( X_1 \dots X_N \) を観測したあとの事後確率 \( P(Y | X_{N}, \dots, X_1) \) は、N-1個のデータを観測したあとの事後確率\( P(Y | X_{N-1}, \dots, X_1) \) と尤度関数 \( P(X_N |Y, X_{N-1}, \dots, X_1) \) に比例します。

\( P(Y | X_N, \dots, X_1) = \frac{ P(X_N |Y, X_{N-1}, \dots, X_1) P(Y | X_{N-1}, \dots, X_1) }{ P(X_N | X_{N-1}, \dots, X_1) } \)

ChatWorkの数学部では毎週上記のような勉強を各個人でおこない、わからないことがあったら互いに質問しあっています。数学の問題は解くのに時間がかかるので、社会人になると尻込みしてしまいますが、こつこつ少しづつやり続ければ意外と進められるというのが僕の最近の発見です。数学に興味のある方は挑戦したり仲間をさがしてみませんか。