Loading [MathJax]/extensions/TeX/AMSmath.js

教養 統計

相関係数

更新日:


ちょっと良くわかってなかったので改めて読み直してみた。
ものすごく分かりやすかったのでまとめてみる。

共分散C_{xy},標準偏差S_x,S_yと相関係数r_{xy}の関係

2次元のデータ(x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)が与えられた場合、
変数xyの相関係数r_{xy}は、それぞれの標準偏差S_x,S_yと、共分散C_{xy}を使って以下となる。
\begin{eqnarray} r_{xy} &=& \frac{C_{xy}}{S_x S_y} \\ &=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})/n}{\sqrt{\sum_{i=1}^n{(x_i-\bar{x})^2}/n} \sqrt{\sum_{i=1}^n{(y_i-\bar{y})^2}/n}} \\ &=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n{(x_i-\bar{x})^2}} \sqrt{\sum_{i=1}^n{(y_i-\bar{y})^2}}} \\ \end{eqnarray}

幾何学的な意味

共分散の分母は常に正なので、符号は分子による。

つまり、x_i-\bar{x} \ge 0かつy_i-\bar{y} \ge 0の場合か
x_i-\bar{x} \le 0かつy_i-\bar{y} \le 0の場合にr_{xy} \ge 0

x_i-\bar{x} \ge 0かつy_i-\bar{y} \le 0の場合か
x_i-\bar{x} \le 0かつy_i-\bar{y} \ge 0の場合にr_{xy} \le 0

r_{xy} \ge 0であるデータがr_{xy} \le 0であるデータよりも多ければr_{xy}は正の方向に大きくなる。
逆にr_{xy} \ge 0であるデータがr_{xy} \le 0であるデータよりも少なければr_{xy}は負の方向に大きくなる。
r_{xy} \ge 0であるデータとr_{xy} \le 0であるデータが拮抗するとr_{xy}は0に近づく。

y_i = \frac{S_y}{S_x}(x_i-\bar{x})+\bar{y}のとき、
すなわちy_i = \frac{S_y}{S_x}x_i + \bar{y}-\bar{x}\frac{S_y}{S_x}という直線に全てのデータが乗っているとき、
r_{xy}=+ 1となる。x_iが増加すればy_iが増加するデータ。正の完全相関。

逆にy_i = -\frac{S_y}{S_x}(x_i-\bar{x})+\bar{y}のとき、
すなわちy_i = -\frac{S_y}{S_x}x_i-\bar{y}+\bar{x}\frac{S_y}{S_x}\ という直線に全てのデータが乗っているとき、
r_{xy}=- 1となる。x_iが増加すればy_iが減少するデータ。負の完全相関。

相関係数r_{xy}-1 \le r_{xy} \le 1を満たすことの証明

一般正規分布を標準正規分布にする際の変換で出てきたように、
平均が0、標準偏差が1の分布に変換する。
変換後の分布z_i,w_iはそれぞれを下記の通り。
\begin{eqnarray} z_i = \frac{x_i-\bar{x}}{S_x} \\ w_i = \frac{y_y-\bar{y}}{S_y} \end{eqnarray}

これらの分布を使って相関係数r_{xy}を書き直すと以下のようになって、
z_iw_iの共分散と等しいことがわかる。
\begin{eqnarray} r_{xy} &=& \frac{1}{n}\sum_{i=1}^n z_i w_i \\ &=& \frac{1}{n}\sum_{i=1}^n (z_i-\bar{z}) (w_i-\bar{w}) \\ &=& C_{zw} \end{eqnarray}

相関係数r_{xy}-1 \le r_{xy} \le 1を満たすことの証明は以下のようにやる様子。
\begin{eqnarray} \frac{1}{n} \sum_{i=1}^n (z_i \pm w_i)^2 &=& \frac{1}{n} \sum_{i=1}^n (z_i^2 \pm 2z_i w_i + w_i^2) \\ &=& \frac{1}{n} \sum_{i=1}^n z_i^2 \pm \frac{2}{n} \sum_{i=1}^n z_iw_i + \frac{1}{n} \sum_{i=1}^nw_i^2 \end{eqnarray}
標準化された分布z_iw_iについて以下が成り立つ。
\begin{eqnarray}  \frac{1}{n}\sum_{i=1}^n z_i^2 &=& 1 \\  \frac{1}{n}\sum_{i=1}^n w_i^2 &=& 1 \end{eqnarray}
なので、
\begin{eqnarray} \frac{1}{n} \sum_{i=1}^n (z_i \pm w_i)^2 &=& 1 \pm 2r_{xy} + 1 \\ &=& 2(1 \pm r_{xy}) \end{eqnarray}

左辺は常に正なので、 1 \pm r_{xy} \ge 0 が言える。
つまり、-1 \le r_{xy} \le 1 が言える。

-教養, 統計
-

S