教養 統計

嘘を見抜く方法-見かけ上の相関と偏相関係数

更新日:

みかけ上の相関

データセット\((x_i,y_i)\)について高い相関係数が得られた場合に、
必ずしも\(x_i\)と\(y_i\)の間に相関があると言えない。

例えば、「金持ちの人ほど朝方である」というやつ。
所得\(x_i\)と起床時間\(y_i\)が揃ったデータセットなんてどこで取るのか知らないけど。
\((x_i,y_i)\)を散布図にプロットしていくと、綺麗に正の相関が現れるらしい。
相関係数\(r_{xy}\)は1に近づき、相関係数だけ見ると相関がありそうに見えてしまう。

これには年齢\(z_i\)というデータが隠れていて、
年齢が高いほど高所得である場合が多く、早起きだという事実がある。
つまり\(r_{zx}\)、\(r_{zy}\)は1に近い値になる。

偏相関係数

本来背後にある考慮あれていない因子(ここで言う年齢)のことを交錯因子と言うらしい。
交錯因子の影響を取り除いたあとの補正済みの相関係数(偏相関係数)を計算できてしまう。
以下の\(r_{xy \cdot z}\)は、\(z_i\)の影響を除いた後の\(x_i\)と\(y_i\)の相関係数。

\begin{eqnarray}
r_{xy \cdot z} = \frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{13}^2}\sqrt{1-r_{23}^2}}
\end{eqnarray}

-教養, 統計
-

Copyright© ikuty.com , 2018 AllRights Reserved Powered by AFFINGER4.