前の記事で線形単回帰において訓練データから回帰係数を求める方法を書いてみた。
標本平均を使って母平均を推測する話とリンクさせることで、
回帰係数の95%信頼区間を求めることができた。
回帰係数\(\hat{\beta_0},\hat{\beta_1}\)と真の回帰係数\(\beta_0,\beta_1\)の関係がこれ。
RSE,真の回帰直線と観測データがどれくらい離れているか
真の回帰直線がわかったとしても、全てのデータが回帰直線の上に乗っているのでなければ、
回帰直線を使って値を予測したときに誤差が出てくる。
残差平方和(Residual sum of square)。WikipediaにもRSS。
\(\hat{y_i}\)は訓練データを使って得られた回帰係数で作った回帰直線で予測した値。
だから、RSS自体も訓練データに対応して変動する。
\begin{eqnarray}
RSS=\sum_{i=1}^n (y_i-\hat{y_i})^2
\end{eqnarray}
で、知りたいのはRSSが訓練データに対してどの程度変動するかだから標準偏差。
標本分散は不偏推定量ではなくて分布の自由度で割る必要がある…という話があって、
不偏推定量を求める段取りが必要。\(n-1\)ではなく\(n-2\)で割る!。詳しくは以下。
カイ2乗分布になりそうだけれども、自由度が何故\(n-2\)なのだろうか…。
\begin{eqnarray}
RSE= \sqrt{\frac{1}{n-2}\sum_{i=1}^{n}(y_i-\hat{y_i}^2)}
\end{eqnarray}
決定係数\(R^2\)
RSS,RSEは\(Y\)の単位で値が決まる。\(y_i\)が無茶苦茶大きいとRSEは大きくなる。
RSEだけ見て回帰直線がどれだけ当てはまっているか言えない様子。
当てはまりの良さを\(0\)から\(1\)の範囲におさめる別の指標もある。
TSS (Total sum of square)として以下。
\begin{eqnarray}
TSS = \sum_{i-1}^{n}(y_i-\bar{y_i})^2
\end{eqnarray}
\(R^2\)として以下。
\begin{eqnarray}
R^2 &=& \frac{TSS-RSS}{TSS} \\
&=& 1-\frac{RSS}{TSS} \\
&=& 1 – \frac{\sum_{i=1}^n (y_i-\hat{y_i})^2}{\sum_{i-1}^{n}(y_i-\bar{y_i})^2}
\end{eqnarray}