[mathjax]
ちょっと良くわかってなかったので改めて読み直してみた。
ものすごく分かりやすかったのでまとめてみる。
共分散(C_{xy}),標準偏差(S_x,S_y)と相関係数(r_{xy})の関係
2次元のデータ((x_1,y_1),(x_2,y_2),cdots,(x_n,y_n))が与えられた場合、
変数(x)と(y)の相関係数(r_{xy})は、それぞれの標準偏差(S_x,S_y)と、共分散(C_{xy})を使って以下となる。
begin{eqnarray}
r_{xy} &=& frac{C_{xy}}{S_x S_y} \\
&=& frac{sum_{i=1}^n(x_i-bar{x})(y_i-bar{y})/n}{sqrt{sum_{i=1}^n{(x_i-bar{x})^2}/n} sqrt{sum_{i=1}^n{(y_i-bar{y})^2}/n}} \\
&=& frac{sum_{i=1}^n(x_i-bar{x})(y_i-bar{y})}{sqrt{sum_{i=1}^n{(x_i-bar{x})^2}} sqrt{sum_{i=1}^n{(y_i-bar{y})^2}}} \\
end{eqnarray}
幾何学的な意味
共分散の分母は常に正なので、符号は分子による。
つまり、(x_i-bar{x} ge 0)かつ(y_i-bar{y} ge 0)の場合か
(x_i-bar{x} le 0)かつ(y_i-bar{y} le 0)の場合に(r_{xy} ge 0)
(x_i-bar{x} ge 0)かつ(y_i-bar{y} le 0)の場合か
(x_i-bar{x} le 0)かつ(y_i-bar{y} ge 0)の場合に(r_{xy} le 0)
(r_{xy} ge 0)であるデータが(r_{xy} le 0)であるデータよりも多ければ(r_{xy})は正の方向に大きくなる。
逆に(r_{xy} ge 0)であるデータが(r_{xy} le 0)であるデータよりも少なければ(r_{xy})は負の方向に大きくなる。
(r_{xy} ge 0)であるデータと(r_{xy} le 0)であるデータが拮抗すると(r_{xy})は0に近づく。
(y_i = frac{S_y}{S_x}(x_i-bar{x})+bar{y})のとき、
すなわち(y_i = frac{S_y}{S_x}x_i + bar{y}-bar{x}frac{S_y}{S_x})という直線に全てのデータが乗っているとき、
(r_{xy}=+ 1)となる。(x_i)が増加すれば(y_i)が増加するデータ。正の完全相関。
逆に(y_i = -frac{S_y}{S_x}(x_i-bar{x})+bar{y})のとき、
すなわち(y_i = -frac{S_y}{S_x}x_i-bar{y}+bar{x}frac{S_y}{S_x} )という直線に全てのデータが乗っているとき、
(r_{xy}=- 1)となる。(x_i)が増加すれば(y_i)が減少するデータ。負の完全相関。
相関係数(r_{xy})が(-1 le r_{xy} le 1)を満たすことの証明
一般正規分布を標準正規分布にする際の変換で出てきたように、
平均が0、標準偏差が1の分布に変換する。
変換後の分布(z_i,w_i)はそれぞれを下記の通り。
begin{eqnarray}
z_i = frac{x_i-bar{x}}{S_x} \\
w_i = frac{y_y-bar{y}}{S_y}
end{eqnarray}
これらの分布を使って相関係数(r_{xy})を書き直すと以下のようになって、
(z_i)、(w_i)の共分散と等しいことがわかる。
begin{eqnarray}
r_{xy} &=& frac{1}{n}sum_{i=1}^n z_i w_i \\
&=& frac{1}{n}sum_{i=1}^n (z_i-bar{z}) (w_i-bar{w}) \\
&=& C_{zw}
end{eqnarray}
相関係数(r_{xy})が(-1 le r_{xy} le 1)を満たすことの証明は以下のようにやる様子。
begin{eqnarray}
frac{1}{n} sum_{i=1}^n (z_i pm w_i)^2 &=& frac{1}{n} sum_{i=1}^n (z_i^2 pm 2z_i w_i + w_i^2) \\
&=& frac{1}{n} sum_{i=1}^n z_i^2 pm frac{2}{n} sum_{i=1}^n z_iw_i + frac{1}{n} sum_{i=1}^nw_i^2
end{eqnarray}
標準化された分布(z_i)、(w_i)について以下が成り立つ。
begin{eqnarray}
frac{1}{n}sum_{i=1}^n z_i^2 &=& 1 \\
frac{1}{n}sum_{i=1}^n w_i^2 &=& 1
end{eqnarray}
なので、
begin{eqnarray}
frac{1}{n} sum_{i=1}^n (z_i pm w_i)^2 &=& 1 pm 2r_{xy} + 1 \\
&=& 2(1 pm r_{xy})
end{eqnarray}
左辺は常に正なので、( 1 pm r_{xy} ge 0 )が言える。
つまり、(-1 le r_{xy} le 1 ) が言える。