[mathjax]
ちょっと不思議な計算をしてみる。
仮定に仮定を積み重ねた素人の統計。
成功か失敗かを応答する認証装置があったとする。
1回の試行における成功確率(p)は試行によらず一定でありベルヌーイ試行である。
(n)回の独立な試行を繰り返したとき、成功数(k)を確率変数とする離散確率変数に従う。
二項分布の確率密度関数は以下の通り。
begin{eqnarray}
P(X=k)= {}_n C_k p^k (1-p)^{n-k}
end{eqnarray}
期待値、分散は、
begin{eqnarray}
E(X) &=& np \\
V(X) &=& np(1-p)
end{eqnarray}
(z)得点(偏差値,つまり平均からの誤差が標準偏差何個分か?)は、
begin{eqnarray}
z &=& frac{X-E(X)}{sigma} \\
&=& frac{X-E(X)}{sqrt{V(X)}} \\
&=& frac{X-np}{sqrt{np(1-p)}}
end{eqnarray}
であり、(z)は標準正規分布に従う。
これを標本比率(hat{p}=frac{X}{n})を使うように式変形する。
begin{eqnarray}
z &=& frac{frac{1}{n}}{frac{1}{n}} frac{X-np}{sqrt{np(1-p)}} \\
&=& frac{frac{X}{n}-p}{sqrt{frac{p(1-p)}{n}}} \\
&=& frac{hat{p}-p}{sqrt{frac{p(1-p)}{n}}}
end{eqnarray}
(n)が十分に大きいとき、(z)は標準正規分布(N(0,1))に従う。
従って、(Z)の95%信頼区間は以下である。
begin{eqnarray}
-1.96 le Z le 1.96
end{eqnarray}
なので、
begin{eqnarray}
-1.96 le frac{hat{p}-p}{sqrt{frac{p(1-p)}{n}}} le 1.96
end{eqnarray}
(hat{p})は(p)の一致推定量であるから、(n)が大なるとき(hat{p}=p)とすることができる。
begin{eqnarray}
-1.96 le frac{hat{p}-p}{sqrt{frac{hat{p}(1-hat{p})}{n}}} le 1.96 \\
end{eqnarray}
(p)について解くと(p)の95%信頼区間が求まる。
begin{eqnarray}
hat{p}-1.96 sqrt{frac{hat{p}(1-hat{p})}{n}} le p le hat{p}+1.96 sqrt{frac{hat{p}(1-hat{p})}{n}}
end{eqnarray}
上記のにおいて、標準誤差(1.96sqrt{frac{hat{p}(1-hat{p})}{n}})が小さければ小さいほど、
95%信頼区間の幅が狭くなる。この幅が5%以内であることを言うためには以下である必要がある。
(有意水準=5%)
begin{eqnarray}
1.96sqrt{frac{hat{p}(1-hat{p})}{n}} le 0.05
end{eqnarray}
観測された(hat{p})が(0.9)であったとして(n)について解くと、
begin{eqnarray}
1.96sqrt{frac{0.9(1-0.9)}{n}} le 0.05 \\
frac{1.96}{0.05} sqrt{0.09} le sqrt{n} \\
11.76 le sqrt{n} \\
138.2 le n
end{eqnarray}
139回試行すれば、100回中95回は(p)は以下の95%信頼区間に収まる。
つまり95%信頼区間は以下となる。
begin{eqnarray}
hat{p}-1.96 sqrt{frac{hat{p}(1-hat{p})}{n}} &le& p le hat{p}+1.96 sqrt{frac{hat{p}(1-hat{p})}{n}} \\
0.9-1.96 frac{sqrt{0.09}}{sqrt{139}} &le& p le 0.9 + 1.96 frac{sqrt{0.09}}{sqrt{139}} \\
0.9-1.96 frac{0.3}{11.78} &le& p le 0.9+1.96 frac{0.3}{11.78} \\
0.85 &le& p le 0.95
end{eqnarray}
(n)を下げたい場合は有意水準を下げれば良い。
統計的に有意水準=10%まで許容されることがある。
有意水準が10%であるとすると、(n)は35以上であれば良いことになる。
begin{eqnarray}
1.96sqrt{frac{0.9(1-0.9)}{n}} le 0.1 \\
frac{1.96}{0.1} sqrt{0.09} le sqrt{n} \\
5.88 le sqrt{n} \\
34.6 le n
end{eqnarray}
信頼区間と有意水準の式において(p)を標本から取ってきたけど、
アンケートにおいてYes/Noを答える場合、(p)は標本における最大値(つまり0.5)を
設定して(n)を求める。
つまり、(p)として利用するのは標本比率ではないのかな?と。
このあたり、(hat{p})を変数として残すとどういうことがわかった。
[clink url=\"https://ikuty.com/2019/01/13/sampling_with2/\"]