ちょっと良くわかってなかったので改めて読み直してみた。
ものすごく分かりやすかったのでまとめてみる。
共分散C_{xy},標準偏差S_x,S_yと相関係数r_{xy}の関係
2次元のデータ(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)が与えられた場合、
変数xとyの相関係数r_{xy}は、それぞれの標準偏差S_x,S_yと、共分散C_{xy}を使って以下となる。
\begin{eqnarray}
r_{xy} &=& \frac{C_{xy}}{S_x S_y} \\
&=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})/n}{\sqrt{\sum_{i=1}^n{(x_i-\bar{x})^2}/n} \sqrt{\sum_{i=1}^n{(y_i-\bar{y})^2}/n}} \\
&=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n{(x_i-\bar{x})^2}} \sqrt{\sum_{i=1}^n{(y_i-\bar{y})^2}}} \\
\end{eqnarray}
幾何学的な意味
共分散の分母は常に正なので、符号は分子による。
つまり、x_i-\bar{x} \ge 0かつy_i-\bar{y} \ge 0の場合か
x_i-\bar{x} \le 0かつy_i-\bar{y} \le 0の場合にr_{xy} \ge 0
x_i-\bar{x} \ge 0かつy_i-\bar{y} \le 0の場合か
x_i-\bar{x} \le 0かつy_i-\bar{y} \ge 0の場合にr_{xy} \le 0
r_{xy} \ge 0であるデータがr_{xy} \le 0であるデータよりも多ければr_{xy}は正の方向に大きくなる。
逆にr_{xy} \ge 0であるデータがr_{xy} \le 0であるデータよりも少なければr_{xy}は負の方向に大きくなる。
r_{xy} \ge 0であるデータとr_{xy} \le 0であるデータが拮抗するとr_{xy}は0に近づく。
y_i = \frac{S_y}{S_x}(x_i-\bar{x})+\bar{y}のとき、
すなわちy_i = \frac{S_y}{S_x}x_i + \bar{y}-\bar{x}\frac{S_y}{S_x}という直線に全てのデータが乗っているとき、
r_{xy}=+ 1となる。x_iが増加すればy_iが増加するデータ。正の完全相関。
逆にy_i = -\frac{S_y}{S_x}(x_i-\bar{x})+\bar{y}のとき、
すなわちy_i = -\frac{S_y}{S_x}x_i-\bar{y}+\bar{x}\frac{S_y}{S_x}\ という直線に全てのデータが乗っているとき、
r_{xy}=- 1となる。x_iが増加すればy_iが減少するデータ。負の完全相関。
相関係数r_{xy}が-1 \le r_{xy} \le 1を満たすことの証明
一般正規分布を標準正規分布にする際の変換で出てきたように、
平均が0、標準偏差が1の分布に変換する。
変換後の分布z_i,w_iはそれぞれを下記の通り。
\begin{eqnarray}
z_i = \frac{x_i-\bar{x}}{S_x} \\
w_i = \frac{y_y-\bar{y}}{S_y}
\end{eqnarray}
これらの分布を使って相関係数r_{xy}を書き直すと以下のようになって、
z_i、w_iの共分散と等しいことがわかる。
\begin{eqnarray}
r_{xy} &=& \frac{1}{n}\sum_{i=1}^n z_i w_i \\
&=& \frac{1}{n}\sum_{i=1}^n (z_i-\bar{z}) (w_i-\bar{w}) \\
&=& C_{zw}
\end{eqnarray}
相関係数r_{xy}が-1 \le r_{xy} \le 1を満たすことの証明は以下のようにやる様子。
\begin{eqnarray}
\frac{1}{n} \sum_{i=1}^n (z_i \pm w_i)^2 &=& \frac{1}{n} \sum_{i=1}^n (z_i^2 \pm 2z_i w_i + w_i^2) \\
&=& \frac{1}{n} \sum_{i=1}^n z_i^2 \pm \frac{2}{n} \sum_{i=1}^n z_iw_i + \frac{1}{n} \sum_{i=1}^nw_i^2
\end{eqnarray}
標準化された分布z_i、w_iについて以下が成り立つ。
\begin{eqnarray}
\frac{1}{n}\sum_{i=1}^n z_i^2 &=& 1 \\
\frac{1}{n}\sum_{i=1}^n w_i^2 &=& 1
\end{eqnarray}
なので、
\begin{eqnarray}
\frac{1}{n} \sum_{i=1}^n (z_i \pm w_i)^2 &=& 1 \pm 2r_{xy} + 1 \\
&=& 2(1 \pm r_{xy})
\end{eqnarray}
左辺は常に正なので、 1 \pm r_{xy} \ge 0 が言える。
つまり、-1 \le r_{xy} \le 1 が言える。