標本の標準偏差とルートnの法則

更新日：2020年11月2日

平均\(\mu\)、標準偏差\(\sigma\)からなる母集団から標本を取り出したとき、
標本の平均は母集団の平均\(\mu\)に収束する。
では、もう一つの統計量である標準偏差はどうか。
意外と簡単にわかるようなのでまとめてみる。

誤差伝播法則

まず、下準備として、加法の誤差の見積もりについて。
今、\(M_1\)というサンプルが誤差\(\epsilon_1\)、\(M_2\)というサンプルが誤差\(\epsilon_2\)を持つとする。
つまり、それぞれ\(M_1\pm\epsilon_1\)、\(M_2\pm\epsilon_2\)。
その上で、\((M_1\pm\epsilon_1) \pm (M_2\pm\epsilon_2) \) について誤差の項をどう見積れるか、という話。

例えば以下の関係があったとき、
\begin{eqnarray}
z &=& f(x,y)
\end{eqnarray}
以下とすると、
\begin{eqnarray}
x &=& x_0 \pm e_x \\
y &=& y_0 \pm e_y
\end{eqnarray}
\(z\)は、以下のようになる。
\begin{eqnarray}
z &=& z_0 \pm e_z
\end{eqnarray}
ここで\(e_z\)は以下となる（公式）。
偏微分とか何年振りだよ..と、思うがなんとなく確率の式より把握しやすい。
\begin{eqnarray}
e_z = \sqrt{\left( \frac{\partial f}{\partial x} \right)^2 e_x^2 + \left( \frac{\partial f}{\partial y} \right)^2 e_y^2}
\end{eqnarray}
最初のサンプルと誤差を上記に入れてみると、
\begin{eqnarray}
\sigma &=& \sqrt{\left( \frac{\partial (M_1+M_2)}{\partial M_1} \epsilon_1 \right)^2 + \left( \frac{\partial (M_1+M_2)}{\partial M_2} \epsilon_2 \right)^2} = \sqrt{ \epsilon_1^2 + \epsilon_2^2 }
\end{eqnarray}
両辺2乗して、
\begin{eqnarray}
\sigma^2 &=& \left( \frac{\partial (M_1+M_2)}{\partial M_1} \epsilon_1 \right)^2 + \left( \frac{\partial (M_1+M_2)}{\partial M_2} \epsilon_2 \right)^2 = \epsilon_1^2 + \epsilon_2^2
\end{eqnarray}
ここから一番最初に戻ると、
\begin{eqnarray}
(M_1 \pm \epsilon_1) \pm (M_2 \pm \epsilon_2)
\end{eqnarray}
上の誤差伝播式から以下が導かれる。
誤差項は以下の通りとなる様子。
\begin{eqnarray}
(M_1 \pm M_2 ) \pm \sqrt{( \epsilon_1^2 + \epsilon_2^2 )}
\end{eqnarray}

ルートnの法則

母集団から\(N\)個のサンプルを取り出したときの平均は以下の通り。
\begin{eqnarray}
\bar{x} = \frac{x_1+x_2+\cdots+x_N}{N}
\end{eqnarray}
どの\(x_i\)も同じ母集団から取り出したサンプルなので、
それぞれの標準偏差は以下の通り全て同じ。
\begin{eqnarray}
\sigma_1 = \sigma_2 = \cdots = \sigma_N = \sigma
\end{eqnarray}
\(\bar{x}\)は真の値に誤差を加算した値であるが、誤差項は誤差伝播法則から以下の通りとなる。
\begin{eqnarray}
\sqrt{\sigma_1^2 + \sigma_2^2 + \cdots + \sigma_N^2} = \sqrt{\sigma^2 + \sigma^2 + \cdots + \sigma^2} = \sqrt{N}\sigma
\end{eqnarray}
サンプル1個あたりの誤差、つまり標準偏差は、
\begin{eqnarray}
\frac{\sqrt{N}\sigma}{N} = \frac{\sigma}{\sqrt{N}}
\end{eqnarray}

まとめ

平均\(\mu\)、標準偏差\(\sigma\)からなる母集団から標本を取り出したとき、

標本の平均は母集団の平均\(\mu\)と等しい。
標本の標準偏差は\( \frac{\sigma}{\sqrt{N}} \)である。

特に、標準偏差が\(1/\sqrt{N}\)倍となり、母集団と比較してより狭い範囲に値が集中する。

標本の標準偏差とルートnの法則

誤差伝播法則

ルートnの法則

まとめ

AirflowでEnd-To-End Pipeline Testsを行うためにAirflow APIを調べてみた話

CustomOperatorのUnitTestを理解するためGCSToBigQueryOperatorのUnitTestを読んでみた話

GoogleによるAirflow DAG実装のベスプラ集を読んでみた – その1

Snowpark Container Services上でWebアプリ(FastAPI/React/TypeScript)を動かしてみた

Azure Queue StorageとAzure Service Busを比較してみた

Azure Functionsの機能まとめ（座学版）

External Network Accessを使ってSnowflakeとFitbitAPIを繋いでみた話

Deep dive into the internals of Snowflake Virtual Warehousesを読んでみた

GCSとのストレージ統合を設定した話

デプロイメントについて調べてみた話（端折り気味）

AirflowでEnd-To-End P

CustomOperatorのUnitT