[mathjax]
zozoスーツではないけれども、標本が正規分布に従うというのは、
真実の母平均に対して正規分布に従う計測誤差を含む分布を観測しているのと同じ。
母平均(mu)が未知である現象を計測誤差がわかっている計測手段で計測する話。
(n)回計測を行って得られた標本(X_1,X_2,cdots,X_n)は、母平均を中心として誤差分振れているはず。
つまり、(X_1=mu+e_1,X_2=mu+e_2,cdots,X_n=mu+e_N)。
誤差(e_i)は平均0、分散(sigma^2)の正規分布(N(0,sigma^2))に従うと考えると、
標本(X_i)は(mu)だけオフセットした正規分布(N(mu,sigma^2))に従うと考えられる。
標本平均は(bar{X}=frac{1}{n}(X_1+X_2+cdots+X_n))だから、
(n)に関係なく(E(bar{X})=mu)であって、(V(bar{X})=frac{sigma^2}{n})から(lim_{nrightarrow infty}V(bar{X})=0)。
中心極限定理により大なる(n)のとき(bar{X})の分布は正規分布(N(mu,frac{sigma^2}{n}))で近似できる。
標本(X_i)の標準偏差が(sigma)である一方、標本平均の標準偏差は(frac{sigma}{sqrt{N}})だから、
標本の分布より、標本平均の分布の方が裾が狭い。
正規分布(N(mu,frac{sigma^2}{n}))を標準化しておくと、標準正規分布の累積度数表を使って
平均(mu)、標準偏差(sigma)を評価できるようになる。z得点は以下の変換。
begin{eqnarray}
Z=frac{bar{X}-mu}{frac{sigma}{sqrt{n}}}
end{eqnarray}
分布(Z)は平均0、標準偏差1の標準正規分布になる。
見方としては、残差が標準偏差何個分か?の分布。全部足して1になる。
(bar{X},mu,sigma,n)として具体的な値を入れると数値(Z)が決まる。
ちなみに確率密度関数と累積度数は以下の通り。
begin{eqnarray}
f(x) &=& frac{1}{sqrt{2pi}} exp left( -frac{x^2}{2} right) \\
int_{-infty}^{infty} f(x) dx &=& 1
end{eqnarray}
(x=0)から(x=z)の面積(int_0^{z} frac{1}{sqrt{2pi}} left( -frac{x^2}{2} right) )を(Phi(z))とおき、
(Phi(z)=a)となる点を上側(a)パーセント点という名前が付いている。
(Phi(z))の積分は解析的に計算できないけれど、有用だし決まった数値なので、
ここみたいに表ができているからルックアップすれば良い様子。
(Z)得点が1.96であったとすると、標準正規分布表から(Phi(z=1.96)=0.475)であることがわかる。
これは上側確率が0.475という意味なので、両側確率は2をかけて0.975ということになる。
逆に言うと、(mu)だけが不明で、既知の母分散と標本平均から(mu)を推測することに、
この話を使うことができる。つまり、(-1.96 le z le +1.96)という式を立てると、
(mu)の信頼区間を作ることができる。つまり、(n)個の標本を取る操作を100回繰り返すと97.5回は
信頼区間が母平均を含まない区間になっている。
例
確率変数(X)が平均2、分散10の正規分布(N(2,10))に従うとする。
95%信頼区間は(-1.96 lt z lt 1.96)から、
(-1.96 sqrt{10} + 2 lt X lt 1.96 sqrt{10} + 2)。
(-4.2 lt X lt 8.2)。
100回試すと97.5回は母平均がこの区間にある。
(X)が負になる確率は、(Z=frac{X-2}{sqrt{10}})から、(sqrt{10}Z+2lt 0)、(Z lt -frac{2}{sqrt{10}})、(Z lt - 0.633)。
(P(X lt 0)=P(Z lt -0.633)=1-P(z lt 0.633))。