統計的推測と大数の法則

投稿日：2018年10月23日

大数の法則は、標本数が大きくなったときに標本平均が母平均に確率収束することを数学的に表す。
\begin{eqnarray}
\lim_{n \rightarrow \infty} P(|\bar{X}-\mu|\ge \epsilon) \rightarrow 0
\end{eqnarray}
母集団の確率分布がわかっていれば、母平均、母分散、標準偏差などの統計量は定義済みだから、
標本数が多いという仮定があれば、標本から母平均を見立てて計算し、
見立てた母平均が”どの程度”真の母平均に収束しているかを言うことで、
標本がどの程度母集団を言い当てているかを言うことができる。

1か0が起こるベルヌーイ試行を100回やって、1が80回、0が20回起こったとする。
この100回の標本は”たまたま”取得した結果だけれども、
これが無限集団の一部分だったとして、今回得られた標本から無限集団の平均を得られないか。

まず、確率変数\(X_1,X_2,\cdots\,X_{100}\)は以下の確率分布に従う。
\begin{eqnarray}
P(X_i=1) &=& \frac{80}{100} = 0.8 \\
P(X_i=0) &=& \frac{20}{100} = 0.2
\end{eqnarray}
さらに確率変数\(X_1,X_2,\cdots\,X_{100}\)は\(p=0.8\)のベルヌーイ分布に従う。
その平均は\(p=0.8\)、分散は\(p(1-p)=0.16\)。
これは”たまたま”取得した100個の標本を使って作った母平均と母分散。

では、この”たまたま”の母平均と母分散を使って、
\(\bar{X}=\frac{X_1+X_2+\cdots+X_n}{n}\)に関する\(E(\bar{X})\)、\(V(\bar{X})\)を計算する。
\(E(\bar{X})=\mu\)、\(V(\bar{X})=\frac{\sigma^2}{n}\)であるから、
\(E(\bar{X})=0.8\)、\(V(\bar{X})=0.0016\)、（\(\sqrt{V(\bar{X})}=0.04 )\)

大数の法則（弱法則）により、”たまたま”の100回という試行において、
\(\bar{X}\)は0.8に確率収束し、その標準偏差は\(0.04\)であることがわかる。
試行回数を増やしていくと、標準偏差が0に収束する。

100回という試行回数において、1が起こる回数は平均80回で、上下に\(\pm 4\% \)ばらける。
無限大まで増やしていく途中、100回という区切りではこうだった、ということで、
さらに増やしていくと、上下の幅が\(\pm 4\% \)からさらに狭くなる。

全ての標本を得ないでも、手元の標本だけから、
上下の幅という曖昧さを残すことで推測できる。

大数の法則

\(n\)個の確率変数\(X_1,X_2,\cdots,X_n\)が平均\(\mu\)、分散\(\sigma^2\)の分布に独立に従うとき、
和を\(n\)で割った平均の分布\(\bar{X}=\frac{X_1+X_2+\cdots+X_n}{n}\)について、平均、分散はそれぞれ、
\begin{eqnarray}
E(\bar{X}) &=& \frac{n\mu}{n} = \mu \\
V(\bar{X}) &=& \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}
\end{eqnarray}
\(n\)の極限をとったとき、標本平均は母平均\(\mu\)に収束し、分散はゼロに収束する。
\begin{eqnarray}
\lim_{n \rightarrow \infty} E(\bar{X}) &=& \mu \\
\lim_{n \rightarrow \infty} V(\bar{X}) &=& 0 \\
\end{eqnarray}
\(n\)が少ない間は、\(\mu\)の近傍に散らばって分布するが、
\(n\)が増えるに従って、\(\mu\)の近傍の散らばりの範囲が狭くなっていく。

昔、写経した証明は以下。
だいぶ普通に読めるようになった。

大数の法則（弱法則）の証明

統計の基本中の基本らしいもう、統計の基本中の基本らしい大数の法則。ランダムサンプリングした標本から母集団を推測できる話の根幹。ビッグデータを全量検査しなくても同じかもしれない。不明な母集団から観測値\(x\)を記録していくと、観測値\(x\)の平均（標本平均

上で書いたように\(V(\bar{X})=\frac{\sigma^2}{n}\)だから、\(\sigma_n^2\)は、\(\sigma_n^2=V(\bar{X}_n)=\frac{\sigma^2}{n}\)
以下のチェビシェフの不等式において、
\begin{eqnarray}
P(|X_n−\mu|\ge k\sigma_n) &\le& \frac{1}{k^2}
\end{eqnarray}
\(k\sigma_n=\epsilon\)とおく。\(k=\frac{\epsilon}{\sigma_n}=\sqrt{n} \frac{\epsilon}{\sigma}\)
だから、
\begin{eqnarray}
P(|X_n−\mu|\ge \epsilon) &\le& \frac{\sigma^2}{n\epsilon^2}
\end{eqnarray}
極限を取ると、
\begin{eqnarray}
\lim_{n \rightarrow \infty} P(|X_n−\mu|≥\epsilon) &=& \lim_{n \rightarrow \infty }\frac{1}{\epsilon^2} \cdot \frac{\sigma^2}{n} \\
&\rightarrow& 0
\end{eqnarray}

統計的推測と大数の法則

大数の法則

AirflowでEnd-To-End Pipeline Testsを行うためにAirflow APIを調べてみた話

CustomOperatorのUnitTestを理解するためGCSToBigQueryOperatorのUnitTestを読んでみた話

GoogleによるAirflow DAG実装のベスプラ集を読んでみた – その1

Snowpark Container Services上でWebアプリ(FastAPI/React/TypeScript)を動かしてみた

Azure Queue StorageとAzure Service Busを比較してみた

Azure Functionsの機能まとめ（座学版）

External Network Accessを使ってSnowflakeとFitbitAPIを繋いでみた話

Deep dive into the internals of Snowflake Virtual Warehousesを読んでみた

GCSとのストレージ統合を設定した話

デプロイメントについて調べてみた話（端折り気味）

AirflowでEnd-To-End P

CustomOperatorのUnitT