大数の法則（弱法則）の証明

更新日：2018年10月23日

統計の基本中の基本らしい

もう、統計の基本中の基本らしい大数の法則。
ランダムサンプリングした標本から母集団を推測できる話の根幹。
ビッグデータを全量検査しなくても同じかもしれない。

不明な母集団から観測値\(x\)を記録していくと、
観測値\(x\)の平均（標本平均）は母集団の平均（母平均）に収束する

母集団がよくわかってなくても、
母集団が十分に混ざり合っていれば、
いくつか標本を取るだけで母集団の平均がだいたいわかる。

コイン投げで出る表の数の母平均は0.5だろうけども、
10回投げて4回出た -> 0.4、
100回投げて53回出た -> 0.53。
1000回投げて490回出た -> 0.49、
…
のようにしていくと0.5に近づいていく。
単に収束する、というのと別に、統計の分野では「確率収束」という言葉がある。
範囲をもった確率値が振れながら一定の確率に近づいていくことを言うんだろう。（ざっくり）

大数の法則の弱法則の証明を見てなるほどと思ったので複写してみる。

無理やりだが結構すぐに証明できる

とってつけたようにマルコフの不等式とチェビシェフの不等式があれば、
無理やりだけども簡単に証明できる。
マルコフの不等式、チェビシェフの不等式の証明と意味はこちら。

レアな観測がレアであることの定式化

大数の法則の弱法則は以下の通り定式化される。

平均\(\mu\)、標準偏差\(\sigma\)という分布があるとする。
互いに独立な事象が起こる確率の確率変数\(X_1,X_2,\cdots,\)と任意の\(\epsilon \ge 0\)について、
\begin{eqnarray}
\lim_{n\to\infty}P\left(\left|\frac{X_1+X_2+\cdots+X_n}{n}-\mu\right|\ge \epsilon\right)=0
\end{eqnarray}

標本平均と母平均の差が\(\epsilon\)より大きくなる確率が0に収束する。
これを証明する。

まず\(Y_n\)を以下とする。
\begin{eqnarray}
Y_n = \frac{X_1+X_2+\cdots+X_n}{n}
\end{eqnarray}

期待値の定義から、
\begin{eqnarray}
E(Y_n) &=& \frac{n\mu}{n} \\
&=& \mu
\end{eqnarray}
分散の定義から、
\begin{eqnarray}
V(Y_n) &=& \frac{n\sigma^2}{n^2} \\
&=& \frac{\sigma^2}{n}
\end{eqnarray}

チェブシェフの不等式として以下が成りたつ。
\begin{eqnarray}
P(|Y_n-\mu|\ge a) \le \frac{E(|Y_n-\mu|^2)}{a^2}
\end{eqnarray}
右辺の分子を分散で書き換えると、
\begin{eqnarray}
P(|Y_n-\mu|\ge a) \le \frac{\sigma^2}{na^2}
\end{eqnarray}

両辺のnの極限をとると、
\begin{eqnarray}
\lim_{n \to \infty} P(|Y_n-\mu|\ge a) &\le& \lim_{n \to \infty } \frac{\sigma^2}{na^2} \\
\lim_{n \to \infty} P(|Y_n-\mu|\ge a) &\le& 0
\end{eqnarray}
なので示された。

都合よくチェビシェフの不等式がある感じだけど、あれば簡単。

さて、ではどういうことか

式をこねくり回しても意味がないので、
少し考えてみる。

大数の法則（弱法則）の証明

統計の基本中の基本らしい

無理やりだが結構すぐに証明できる

さて、ではどういうことか

GoogleによるAirflow DAG実装のベスプラ集を読んでみた – その1

Snowpark Container Services上でWebアプリ(FastAPI/React/TypeScript)を動かしてみた

Azure Queue StorageとAzure Service Busを比較してみた

Azure Functionsの機能まとめ（座学版）

External Network Accessを使ってSnowflakeとFitbitAPIを繋いでみた話

Deep dive into the internals of Snowflake Virtual Warehousesを読んでみた

GCSとのストレージ統合を設定した話

デプロイメントについて調べてみた話（端折り気味）

dbtのドキュメント生成機能について調べてみた話

The dbt Viewpointを読んでみた話

GoogleによるAirflow DAG

Snowpark Container S