統計の基本中の基本らしい
もう、統計の基本中の基本らしい大数の法則。
ランダムサンプリングした標本から母集団を推測できる話の根幹。
ビッグデータを全量検査しなくても同じかもしれない。
観測値\(x\)の平均(標本平均)は母集団の平均(母平均)に収束する
母集団がよくわかってなくても、
母集団が十分に混ざり合っていれば、
いくつか標本を取るだけで母集団の平均がだいたいわかる。
コイン投げで出る表の数の母平均は0.5だろうけども、
10回投げて4回出た -> 0.4、
100回投げて53回出た -> 0.53。
1000回投げて490回出た -> 0.49、
…
のようにしていくと0.5に近づいていく。
単に収束する、というのと別に、統計の分野では「確率収束」という言葉がある。
範囲をもった確率値が振れながら一定の確率に近づいていくことを言うんだろう。(ざっくり)
大数の法則の弱法則の証明を見てなるほどと思ったので複写してみる。
無理やりだが結構すぐに証明できる
とってつけたようにマルコフの不等式とチェビシェフの不等式があれば、
無理やりだけども簡単に証明できる。
マルコフの不等式、チェビシェフの不等式の証明と意味はこちら。
大数の法則の弱法則は以下の通り定式化される。
互いに独立な事象が起こる確率の確率変数\(X_1,X_2,\cdots,\)と任意の\(\epsilon \ge 0\)について、
\begin{eqnarray}
\lim_{n\to\infty}P\left(\left|\frac{X_1+X_2+\cdots+X_n}{n}-\mu\right|\ge \epsilon\right)=0
\end{eqnarray}
標本平均と母平均の差が\(\epsilon\)より大きくなる確率が0に収束する。
これを証明する。
まず\(Y_n\)を以下とする。
\begin{eqnarray}
Y_n = \frac{X_1+X_2+\cdots+X_n}{n}
\end{eqnarray}
期待値の定義から、
\begin{eqnarray}
E(Y_n) &=& \frac{n\mu}{n} \\
&=& \mu
\end{eqnarray}
分散の定義から、
\begin{eqnarray}
V(Y_n) &=& \frac{n\sigma^2}{n^2} \\
&=& \frac{\sigma^2}{n}
\end{eqnarray}
チェブシェフの不等式として以下が成りたつ。
\begin{eqnarray}
P(|Y_n-\mu|\ge a) \le \frac{E(|Y_n-\mu|^2)}{a^2}
\end{eqnarray}
右辺の分子を分散で書き換えると、
\begin{eqnarray}
P(|Y_n-\mu|\ge a) \le \frac{\sigma^2}{na^2}
\end{eqnarray}
両辺のnの極限をとると、
\begin{eqnarray}
\lim_{n \to \infty} P(|Y_n-\mu|\ge a) &\le& \lim_{n \to \infty } \frac{\sigma^2}{na^2} \\
\lim_{n \to \infty} P(|Y_n-\mu|\ge a) &\le& 0
\end{eqnarray}
なので示された。
都合よくチェビシェフの不等式がある感じだけど、あれば簡単。
さて、ではどういうことか
式をこねくり回しても意味がないので、
少し考えてみる。