Loading [MathJax]/extensions/TeX/AMSmath.js

教養 統計

二項分布と例

更新日:

超幾何分布においてNの無限大の極限を取った時に二項分布になった。
確率分布の理解はデータの数え方のケーススタディだと思うのでまとめてみる。
二項分布になるデータの発生の仕方は多いと書いてある。

二項分布

起こり得る結果が2種類に限定される事象をn回繰り返すとする。
n回のうちx回が結果A、n-x回が結果Bであるとき、
その組み合わせになる確率は以下の通り。
\begin{eqnarray} f(x) = {}_n C_x p^x (1-p)^{n-x} \end{eqnarray}
ある事象が起こったとき、それを元に戻さないで次を行う。
確率px回、確率1-pn-x回、n回のうちx回の組み合わせの数をかけている。
5回中1回ということは、1回目、2回目、3回目、4回目、5回目の計5通りで、それは{}_5 C_1回。
n回中x回ということは{}_n C_x回という意味。

ちなみに、以下の二項定理を使って二項分布が確率分布であることを証明する。
\begin{eqnarray} (a+b)^n &=& {}_n C_0 a^0 b^n + {}n C_1 a^1 b^{n-2}+ \cdots + {}_n C_k a^k b^{n-k} + \cdots + {}n C_{n-1}a^{n-1}b + {}_n C_n a^n b^0 \\ &=& \sum_{k=0}^n {}_n C_k a^k b^{n-k} \end{eqnarray}

全部足す式を二項定理を使って変形すると1になる。なので二項分布は確率分布。
\begin{eqnarray} \sum_x f(x ) &=& \sum_x {}_n C_x p^x (1-p)^{n-x}\\ &=& \sum_x {}_n C_x p^x q^{n-x} \\ &=& (p+q)^n \\ &=& 1^n \\ &=& 1 \end{eqnarray}

確率変数Xが二項分布に従っているのであれば、期待値、分散は以下の通り。
\begin{eqnarray} E(X) &=& np \\ V(X) &=& np(1-p) \end{eqnarray}

二項分布の例

比較的簡単なので統計検定で頻出。
以下の問題がたぶん最もミニマル(二項分布の式に頼る必要もないけど)。

コインを6回投げる試行を行う。
4回表が出る確率を求めよ。

表が出る確率、裏が出る確率、共に0.5
6回のうち4回表が出る場合の数は{}_6 C_4回、6回のうち2回裏が出る場合の同じで15回。
{}_6 C_4 0.5^4 0.5^2 = 0.234

コインを6回投げる試行を行う。
表が出る期待値を求めよ。

E(X) = np = 6 \cdot 0.5 = 3
つまり、コインを6回投げると平均して3回表が出る…、っていう当たり前。

コインを6回投げる試行を行う。
表が出る標準偏差を求めよ。

\sqrt{V(X)} = \sqrt{n p (1-p} = \sqrt{6 \cdot 0.5 \cdot 0.5} = 1.22

95%信頼区間は?

標準偏差が出てきたところで、最初のころにやった95%信頼区間を思い出してみる。
二項分布であれ、中心極限定理により正規分布に近似できる。
\begin{eqnarray} B(n,p) = N(np,np(1-p)) \end{eqnarray}
この正規分布について標準正規分布への変換を考える。
\begin{eqnarray} Z = \frac{X-E(X)}{\sigma} = \frac{X-np}{\sqrt{np(1-p)}} \end{eqnarray}
Z得点を使って95%信頼区間は以下の通り求められる。
\begin{eqnarray} -1.96 \le Z \le 1.96 \\ -1.96 \le \frac{X-3}{1.22} \le 1.96 \\ -1.96 * 1.22 +3 \le X \le 1.96 * 1.22 + 3 \\ 0.60 \le X \le 5.40 \end{eqnarray}
95%信頼区間は上記の通り。従って、コインを6回投げたとき、表の出る回数の95%は0.60から5.40の間であると言える。

-教養, 統計
-

S