教養 統計

相関係数

投稿日:


ちょっと良くわかってなかったので改めて読み直してみた。
ものすごく分かりやすかったのでまとめてみる。

共分散\(C_{xy}\),標準偏差\(S_x,S_y\)と相関係数\(r_{xy}\)の関係

2次元のデータ\((x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\)が与えられた場合、
変数\(x\)と\(y\)の相関係数\(r_{xy}\)は、それぞれの標準偏差\(S_x,S_y\)と、共分散\(C_{xy}\)を使って以下となる。
\begin{eqnarray}
r_{xy} &=& \frac{C_{xy}}{S_x S_y} \\
&=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})/n}{\sqrt{\sum_{i=1}^n{(x_i-\bar{x})^2}/n} \sqrt{\sum_{i=1}^n{(y_i-\bar{y})^2}/n}} \\
&=& \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n{(x_i-\bar{x})^2}} \sqrt{\sum_{i=1}^n{(y_i-\bar{y})^2}}} \\
\end{eqnarray}

幾何学的な意味

共分散の分母は常に正なので、符号は分子による。

つまり、\(x_i-\bar{x} \ge 0\)かつ\(y_i-\bar{y} \ge 0\)の場合か
\(x_i-\bar{x} \le 0\)かつ\(y_i-\bar{y} \le 0\)の場合に\(r_{xy} \ge 0\)

\(x_i-\bar{x} \ge 0\)かつ\(y_i-\bar{y} \le 0\)の場合か
\(x_i-\bar{x} \le 0\)かつ\(y_i-\bar{y} \ge 0\)の場合に\(r_{xy} \le 0\)

\(r_{xy} \ge 0\)であるデータが\(r_{xy} \le 0\)であるデータよりも多ければ\(r_{xy}\)は正の方向に大きくなる。
逆に\(r_{xy} \ge 0\)であるデータが\(r_{xy} \le 0\)であるデータよりも少なければ\(r_{xy}\)は負の方向に大きくなる。
\(r_{xy} \ge 0\)であるデータと\(r_{xy} \le 0\)であるデータが拮抗すると\(r_{xy}\)は0に近づく。

\(y_i = \frac{S_y}{S_x}(x_i-\bar{x})+\bar{y}\)のとき、
すなわち\(y_i = \frac{S_y}{S_x}x_i + \bar{y}-\bar{x}\frac{S_y}{S_x}\)という直線に全てのデータが乗っているとき、
\(r_{xy}=+ 1\)となる。\(x_i\)が増加すれば\(y_i\)が増加するデータ。正の完全相関。

逆に\(y_i = -\frac{S_y}{S_x}(x_i-\bar{x})+\bar{y}\)のとき、
すなわち\(y_i = -\frac{S_y}{S_x}x_i-\bar{y}+\bar{x}\frac{S_y}{S_x}\ \)という直線に全てのデータが乗っているとき、
\(r_{xy}=- 1\)となる。\(x_i\)が増加すれば\(y_i\)が減少するデータ。負の完全相関。

相関係数\(r_{xy}\)が\(-1 \le r_{xy} \le 1\)を満たすことの証明

一般正規分布を標準正規分布にする際の変換で出てきたように、
平均が0、標準偏差が1の分布に変換する。
変換後の分布\(z_i,w_i\)はそれぞれを下記の通り。
\begin{eqnarray}
z_i = \frac{x_i-\bar{x}}{S_x} \\
w_i = \frac{y_y-\bar{y}}{S_y}
\end{eqnarray}

これらの分布を使って相関係数\(r_{xy}\)を書き直すと以下のようになって、
\(z_i\)、\(w_i\)の共分散と等しいことがわかる。
\begin{eqnarray}
r_{xy} &=& \frac{1}{n}\sum_{i=1}^n z_i w_i \\
&=& \frac{1}{n}\sum_{i=1}^n (z_i-\bar{z}) (w_i-\bar{w}) \\
&=& C_{zw}
\end{eqnarray}

相関係数\(r_{xy}\)が\(-1 \le r_{xy} \le 1\)を満たすことの証明は以下のようにやる様子。
\begin{eqnarray}
\frac{1}{n} \sum_{i=1}^n (z_i \pm w_i)^2 &=& \frac{1}{n} \sum_{i=1}^n (z_i^2 \pm 2z_i w_i + w_i^2) \\
&=& \frac{1}{n} \sum_{i=1}^n z_i^2 \pm \frac{2}{n} \sum_{i=1}^n z_iw_i + \frac{1}{n} \sum_{i=1}^nw_i^2
\end{eqnarray}
標準化された分布\(z_i\)、\(w_i\)について以下が成り立つ。
\begin{eqnarray}
 \frac{1}{n}\sum_{i=1}^n z_i^2 &=& 1 \\
 \frac{1}{n}\sum_{i=1}^n w_i^2 &=& 1
\end{eqnarray}
なので、
\begin{eqnarray}
\frac{1}{n} \sum_{i=1}^n (z_i \pm w_i)^2 &=& 1 \pm 2r_{xy} + 1 \\
&=& 2(1 \pm r_{xy})
\end{eqnarray}

左辺は常に正なので、\( 1 \pm r_{xy} \ge 0 \)が言える。
つまり、\(-1 \le r_{xy} \le 1 \) が言える。

-教養, 統計
-

Copyright© ikuty.com , 2018 AllRights Reserved Powered by AFFINGER4.