サイトマップ

Pythonで学ぶ! ベイズ統計 第3回

Pythonで学ぶ! ベイズ統計 第3回

ベイズ更新と、複数の仮説の場合

ベイズ更新

前回の続き
1回目の検査で陽性だった人が、再度別の検査を実施した場合を考える

  • 1回目の検査で陽性だったため、再検査前の病気の確率は3.2%
  • 再検査では、病気に罹患している場合は、98%の人が陽性になる
  • 再検査では、病気に罹患してない場合も、2%の人が陽性になる

再度、「"陽性"の場合に"罹患している"」で、 P(A|B) を求める

 \displaystyle
\begin{aligned}
P(A) &= 3.2\% &= 0.032 \\
P(\bar{A}) &= 96.8\% &= 0.968 \\
P(B|A) &= 98\% &= 0.98 \\
P(B|\bar{A}) &= 2\% &= 0.02
\end{aligned}

から

 \displaystyle
\begin{aligned}
P(A|B) &= \dfrac{P(B|A) P(A)}{P(B|A) P(A) + P(B|\bar{A}) P(\bar{A})} \\
&= \dfrac{0.98 \times 0.032}{0.98 \times 0.032 + 0.02 \times 0.968} \\
&= \dfrac{0.03136}{0.03136 + 0.01936} \\
&= 0.618 = 61.8\%
\end{aligned}

となり、陽性の確率が3.2%から61.8%に更新される

複数の離散仮説

先ほどの例だと、「陽性」「陰性」の2つの"仮説"だったが、複数の仮説の場合を考える
仮説が n個ある場合、 dataという結果が得られた場合、仮説 H_iの確率は、下記のように更新される

 \displaystyle
P( H_i | data ) = \dfrac{P( data | H_i ) P( H_i )}{ \sum_{j=1}^{n} P( data | H_j ) P( H_j )}

ここで、
-  P( H_i ) :事前確率
-  P( data | H_i ) :尤度(ゆうど)
-  P( H_i | data ) :事後確率
と呼ばれる

分母は、 dataが得られる確率の総和になる(つまり P( data )
分子が、その dataが得られる中でも仮説が成り立つ場合になっている

具体例

ボールが入った3つの箱がある場合
- 箱1:赤いボールが2個、白いボールが8個
- 箱2:赤いボールが3個、白いボールが7個
- 箱3:赤いボールが4個、白いボールが6個

とある箱が、箱 iであるという仮説を H_iとする

事前確率を2種類考える
- 情報がなく、全部等確率  P( H_1 ) = P( H_2 ) = P( H_3 ) = 0.333
- 情報がある  P( H_1 ) = 0.5, \quad P( H_2 ) = 0.333, \quad P( H_3 ) = 0.167

この時に、1つボールを取り出した際に「赤」だった場合、それぞれの尤度は、

 \displaystyle
\begin{aligned}
P( 赤 | H_1 ) &= \dfrac{ 2 }{ 10 } &= 0.2 \\
P( 赤 | H_2 ) &= \dfrac{ 3 }{ 10 } &= 0.3 \\
P( 赤 | H_3 ) &= \dfrac{ 4 }{ 10 } &= 0.4
\end{aligned}

なので、
各事後確率は下記のようになる

事前情報なし(等確率)

 \displaystyle
\begin{aligned}
P( H_1 | 赤 ) &= \dfrac{ 0.2 \times 0.333 }{ 0.2 \times 0.333 + 0.3 \times 0.333 + 0.4 \times 0.333 } &= 0.222 \\
P( H_2 | 赤 ) &= \dfrac{ 0.3 \times 0.333 }{ 0.2 \times 0.333 + 0.3 \times 0.333 + 0.4 \times 0.333 } &= 0.333 \\
P( H_3 | 赤 ) &= \dfrac{ 0.4 \times 0.333 }{ 0.2 \times 0.333 + 0.3 \times 0.333 + 0.4 \times 0.333 } &= 0.444
\end{aligned}

事前情報あり

 \displaystyle
\begin{aligned}
P( H_1 | 赤 ) &= \dfrac{ 0.2 \times 0.500 }{ 0.2 \times 0.500 + 0.3 \times 0.333 + 0.4 \times 0.167 } &= 0.375 \\
P( H_2 | 赤 ) &= \dfrac{ 0.3 \times 0.333 }{ 0.2 \times 0.500 + 0.3 \times 0.333 + 0.4 \times 0.167 } &= 0.375 \\
P( H_3 | 赤 ) &= \dfrac{ 0.4 \times 0.167 }{ 0.2 \times 0.500 + 0.3 \times 0.333 + 0.4 \times 0.167 } &= 0.250
\end{aligned}

となる

表にすると

事前(情報なし) 事後(情報なし) 事前(情報あり) 事後(情報あり)
 P( H_1 ) 0.333 0.222 0.500 0.375
 P( H_2 ) 0.333 0.333 0.333 0.375
 P( H_3 ) 0.333 0.444 0.167 0.250

事前情報の有無で、更新後の確率も変化する
今回の場合だと、箱1は赤いボールが少ないので、赤いボールが出た場合は、 P( H_1 ) の確率は下がる

参考文献

この記事は以下の書籍を参考にしましたが、
私の拙い知識で書いておりますので、誤り等ありましたらご指摘ください