大数の法則は、標本数が大きくなったときに標本平均が母平均に確率収束することを数学的に表す。
\begin{eqnarray}
\lim_{n \rightarrow \infty} P(|\bar{X}-\mu|\ge \epsilon) \rightarrow 0
\end{eqnarray}
母集団の確率分布がわかっていれば、母平均、母分散、標準偏差などの統計量は定義済みだから、
標本数が多いという仮定があれば、標本から母平均を見立てて計算し、
見立てた母平均が”どの程度”真の母平均に収束しているかを言うことで、
標本がどの程度母集団を言い当てているかを言うことができる。
1か0が起こるベルヌーイ試行を100回やって、1が80回、0が20回起こったとする。
この100回の標本は”たまたま”取得した結果だけれども、
これが無限集団の一部分だったとして、今回得られた標本から無限集団の平均を得られないか。
まず、確率変数\(X_1,X_2,\cdots\,X_{100}\)は以下の確率分布に従う。
\begin{eqnarray}
P(X_i=1) &=& \frac{80}{100} = 0.8 \\
P(X_i=0) &=& \frac{20}{100} = 0.2
\end{eqnarray}
さらに確率変数\(X_1,X_2,\cdots\,X_{100}\)は\(p=0.8\)のベルヌーイ分布に従う。
その平均は\(p=0.8\)、分散は\(p(1-p)=0.16\)。
これは”たまたま”取得した100個の標本を使って作った母平均と母分散。
では、この”たまたま”の母平均と母分散を使って、
\(\bar{X}=\frac{X_1+X_2+\cdots+X_n}{n}\)に関する\(E(\bar{X})\)、\(V(\bar{X})\)を計算する。
\(E(\bar{X})=\mu\)、\(V(\bar{X})=\frac{\sigma^2}{n}\)であるから、
\(E(\bar{X})=0.8\)、\(V(\bar{X})=0.0016\)、(\(\sqrt{V(\bar{X})}=0.04 )\)
大数の法則(弱法則)により、”たまたま”の100回という試行において、
\(\bar{X}\)は0.8に確率収束し、その標準偏差は\(0.04\)であることがわかる。
試行回数を増やしていくと、標準偏差が0に収束する。
100回という試行回数において、1が起こる回数は平均80回で、上下に\(\pm 4\% \)ばらける。
無限大まで増やしていく途中、100回という区切りではこうだった、ということで、
さらに増やしていくと、上下の幅が\(\pm 4\% \)からさらに狭くなる。
全ての標本を得ないでも、手元の標本だけから、
上下の幅という曖昧さを残すことで推測できる。
大数の法則
\(n\)個の確率変数\(X_1,X_2,\cdots,X_n\)が平均\(\mu\)、分散\(\sigma^2\)の分布に独立に従うとき、
和を\(n\)で割った平均の分布\(\bar{X}=\frac{X_1+X_2+\cdots+X_n}{n}\)について、平均、分散はそれぞれ、
\begin{eqnarray}
E(\bar{X}) &=& \frac{n\mu}{n} = \mu \\
V(\bar{X}) &=& \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}
\end{eqnarray}
\(n\)の極限をとったとき、標本平均は母平均\(\mu\)に収束し、分散はゼロに収束する。
\begin{eqnarray}
\lim_{n \rightarrow \infty} E(\bar{X}) &=& \mu \\
\lim_{n \rightarrow \infty} V(\bar{X}) &=& 0 \\
\end{eqnarray}
\(n\)が少ない間は、\(\mu\)の近傍に散らばって分布するが、
\(n\)が増えるに従って、\(\mu\)の近傍の散らばりの範囲が狭くなっていく。
昔、写経した証明は以下。
だいぶ普通に読めるようになった。
上で書いたように\(V(\bar{X})=\frac{\sigma^2}{n}\)だから、\(\sigma_n^2\)は、\(\sigma_n^2=V(\bar{X}_n)=\frac{\sigma^2}{n}\)
以下のチェビシェフの不等式において、
\begin{eqnarray}
P(|X_n−\mu|\ge k\sigma_n) &\le& \frac{1}{k^2}
\end{eqnarray}
\(k\sigma_n=\epsilon\)とおく。\(k=\frac{\epsilon}{\sigma_n}=\sqrt{n} \frac{\epsilon}{\sigma}\)
だから、
\begin{eqnarray}
P(|X_n−\mu|\ge \epsilon) &\le& \frac{\sigma^2}{n\epsilon^2}
\end{eqnarray}
極限を取ると、
\begin{eqnarray}
\lim_{n \rightarrow \infty} P(|X_n−\mu|≥\epsilon) &=& \lim_{n \rightarrow \infty }\frac{1}{\epsilon^2} \cdot \frac{\sigma^2}{n} \\
&\rightarrow& 0
\end{eqnarray}