前の記事で線形単回帰において訓練データから回帰係数を求める方法を書いてみた。
標本平均を使って母平均を推測する話とリンクさせることで、
回帰係数の95%信頼区間を求めることができた。
回帰係数\(\hat{\beta_0},\hat{\beta_1}\)と真の回帰係数\(\beta_0,\beta_1\)の関係がこれ。
線形単回帰で推定する回帰係数の精度を評価する方法を読んだのでまとめてみる。 当然、真の直線はわからないのだけれども、真の直線があると仮定した上で 推定した回帰係数との関係を考えることで、回帰係数の精度について話せるようになる。 回帰係数の導出 データポイントが\(n\)個ある状況。 \( (x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n) \) 回帰係数\(\hat{\beta_0}\)と\(\hat{\beta_1}\)を使って線形回帰したい。 \begin{eqnarray} \hat{y} = \hat{\beta_0} +
RSE,真の回帰直線と観測データがどれくらい離れているか
真の回帰直線がわかったとしても、全てのデータが回帰直線の上に乗っているのでなければ、
回帰直線を使って値を予測したときに誤差が出てくる。
残差平方和(Residual sum of square)。WikipediaにもRSS。
\(\hat{y_i}\)は訓練データを使って得られた回帰係数で作った回帰直線で予測した値。
だから、RSS自体も訓練データに対応して変動する。
\begin{eqnarray}
RSS=\sum_{i=1}^n (y_i-\hat{y_i})^2
\end{eqnarray}
で、知りたいのはRSSが訓練データに対してどの程度変動するかだから標準偏差。
標本分散は不偏推定量ではなくて分布の自由度で割る必要がある…という話があって、
不偏推定量を求める段取りが必要。\(n-1\)ではなく\(n-2\)で割る!。詳しくは以下。
カイ2乗分布になりそうだけれども、自由度が何故\(n-2\)なのだろうか…。
\begin{eqnarray}
RSE= \sqrt{\frac{1}{n-2}\sum_{i=1}^{n}(y_i-\hat{y_i}^2)}
\end{eqnarray}
The reason is based on trying to get an unbiased estimator of the underlying error variance in the regression. In a simple linear regression with normal error terms it can be shown that:That is, under the standard assumption of normally distributed errors, the residual sum-of-squares has a chi-squared distribution with ?−2 degrees of freedom.
決定係数\(R^2\)
RSS,RSEは\(Y\)の単位で値が決まる。\(y_i\)が無茶苦茶大きいとRSEは大きくなる。
RSEだけ見て回帰直線がどれだけ当てはまっているか言えない様子。
当てはまりの良さを\(0\)から\(1\)の範囲におさめる別の指標もある。
TSS (Total sum of square)として以下。
\begin{eqnarray}
TSS = \sum_{i-1}^{n}(y_i-\bar{y_i})^2
\end{eqnarray}
\(R^2\)として以下。
\begin{eqnarray}
R^2 &=& \frac{TSS-RSS}{TSS} \\
&=& 1-\frac{RSS}{TSS} \\
&=& 1 – \frac{\sum_{i=1}^n (y_i-\hat{y_i})^2}{\sum_{i-1}^{n}(y_i-\bar{y_i})^2}
\end{eqnarray}