確率密度関数を扱わないで正規分布をうまく説明する本を読んだので、
理解のためにまとめてみる。
標準正規分布
平均が0、標準偏差が1である分布をもつデータセットについて度数分布表を書くとする。
データセット内のデータは\(-\infty\)から\(+\infty\)まで出現するが、
その出現頻度の相対度数は0を挟んで正負対象であり、
バラツキの縮約値は標準偏差=1で決まる。
出現頻度の相対度数は平均=0のときが一番大きく、
絶対値が大きくなるに従って小さくなっていく。
-1から+1までの出現頻度の相対度数の和は約0.68となる。
つまり、全体の68%が-1から+1までの値である。
-2から+2までの出現頻度の相対度数の和は約0.95となる。
つまり、全体の95%が-2から+2までの値である。
そんな分布を標準正規分布といっている。
一般正規分布
標準正規分布を満たすデータセットの全てのデータに対して、
\(\sigma\)倍して、\(\mu\)を足したデータセットを考える。
\begin{eqnarray}
z = \sigma x + \mu
\end{eqnarray}
ここで、平均\(\mu\)、標準偏差\(\sigma\)を満たすデータセットについて一律\(+a\)という操作を行う場合、
その結果のデータセットの平均は\(\mu+a\)となるが、分散は\(\sigma^2\)、標準偏差は\(\sigma\)のまま変わらない。
また、平均\(\mu\)、標準偏差\(\sigma\)を満たすデータセットについて一律\(b\)を掛ける操作を行う場合、
その結果のデータセットの平均は\(b\mu\)、分散は\((\sigma b)^2\)、標準偏差は\(\sigma b\)。
このことから、
zの平均はxの平均(=0)+\(\mu\) = \(\mu\)。
zの標準偏差はzの標準偏差(=1)*\(\sigma\) = \(\sigma\)。
平均\(\mu\)、標準偏差\(\sigma\)を持つデータセットについても、
\(\mu-\sigma\)から\(\mu+\sigma\)の相対出現頻度の和は全体の約68%を満たす。
また、\(\mu-2\sigma\)から\(\mu+2\sigma\)の相対出現頻度の和は全体の95%を満たす。
zを一般正規分布と呼んでいる。
\(\sigma\)区間
\(-\sigma\)から\(+\sigma\)までの区間で全体の約68%を占める。この区間を\(1\sigma\)区間と呼んだりする。
また\(-2\sigma\)から\(+2\sigma\)までの区間で全体の約95%を占める。この区間を\(2\sigma\)区間と呼ぶ。
無限の範囲を取りうるデータセットが正規分布であるとわかっているのであれば、
\(2\sigma\)区間を予言することで、95%の確率で正解となる。
偏差値
一般正規分布において平均値\(\mu\)の得点を偏差値50、
\(\mu-\sigma\)を偏差値40、\(\mu+\sigma\)を偏差値60と割りあてる。
偏差値60というのは\(+1\sigma\)区間だから、上位32%でしかないんだな。
偏差値50から60というのが、いかに普通なのかがよくわかる。
対して、偏差値70というのは\(+2\sigma\)区間だから、上位5%ということ。
標準偏差\(\sigma\)が大きい場合、\(1\sigma\)区間が広いので、
平均から大分良さげな点をとっても偏差値が高くない、ということになる。