c3 教養 統計・機械学習

95%信頼区間

投稿日:


95%信頼区間に関する本を読んだのでまとめてみる。

仮説検定振り返り

まず、仮説検定について振り返る。
母集団が正規分布(平均\(\mu\)、標準偏差\(\sigma\))に従うとき、母集団の数をNと仮定した場合、
観測された標本値がxであったとすると、
Nとする仮定は棄却できるかどうかを確かめることを仮説検定としていた。

棄却可否の根拠は以下の式で考えた。
\(z = \frac{x-\mu}{\sigma}\)と変換すると、zは標準正規分布をなす。
標準正規分布の95%予言的中区間は\(-1.96 \leq z \leq 1.96\)であるから、
\begin{eqnarray}
-1.96 \leq \frac{x-\mu}{\sigma} \leq 1.96
\end{eqnarray}
つまり、標本値が仮定する正規分布の95%予言的中区間に含まれているか否かを根拠とした。
zが範囲からはずれる場合、Nという仮定を棄却する。

95%信頼区間

今、母集団のN数から平均、標準偏差を求められるものとする。
例えば、コインをN回振ったときに表が出る回数の平均\(\mu \)は\( \frac{N}{2} \)、標準偏差\(\sigma\)は\(\frac{\sqrt{N}}{2}\)。
このとき、未知の変数\(x\)について、仮定Nを棄却できない範囲は以下の通りである。
\begin{eqnarray}
-1.96 \leq \frac{x-\mu}{\sigma} \leq 1.96 \\
-1.96 \leq \frac{x-\frac{N}{2}}{\frac{\sqrt{N}}{2}} \leq 1.96
\end{eqnarray}

Nを小さい方から大きい方に動かしていくと、上記の不等式が成立する/しないの境界がわかる。
N=12のときは成立しないが、N=13のときは成立する。
N=30のときは成立するが、N=31のときは成立しない。

つまり、\(13 \leq N \leq 30\)のときに不等式は成立する。
これがNの95%信頼区間。

95%信頼区間の意味

95%信頼区間とはNが95%の確率でその区間に入るという意味ではない。
統計あるあるの一つ
Nは実在する真の値であるがわからない値。
\(x\)はNという仮定の上で確率的に発生する値なことに注意。

Nの区間推定は以下の不等式を満たす範囲。
\begin{eqnarray}
-1.96 \leq \frac{x-\frac{N}{2}}{\frac{\sqrt{N}}{2}} \leq 1.96
\end{eqnarray}
\(13 \leq N \leq 30\)のときに、\( x \)は平均\(\mu=\frac{N}{2}\)、標準偏差\(\sigma=\frac{\sqrt{N}}{2}\)の正規分布の
95%予言的中区間に含まれる、ということを言っている。

それぞれのNに対してそれぞれの\(x\)の分布が存在していて、
その\(x\)においてNを棄却できない、というそんな区間。

平均\(\mu\)、標準偏差\(\sigma\)ともに母集団の数Nから自動的に定る正規分布なんで、
フェイクといえばフェイクだけども、
母集団の数Nを決めるだけで、そこから発生する値を95%の確率で予言できるなんてすごいな。

-c3 教養, 統計・機械学習
-

Copyright© ikuty.com , 2018 AllRights Reserved Powered by AFFINGER4.