回帰直線の当てはまりの指標

投稿日：2019年5月19日

前の記事で線形単回帰において訓練データから回帰係数を求める方法を書いてみた。
標本平均を使って母平均を推測する話とリンクさせることで、
回帰係数の95%信頼区間を求めることができた。
回帰係数\(\hat{\beta_0},\hat{\beta_1}\)と真の回帰係数\(\beta_0,\beta_1\)の関係がこれ。

単回帰曲線における回帰係数の精度（95%信頼区間)

線形単回帰で推定する回帰係数の精度を評価する方法を読んだのでまとめてみる。当然、真の直線はわからないのだけれども、真の直線があると仮定した上で推定した回帰係数との関係を考えることで、回帰係数の精度について話せるようになる。回帰係数の導出データポイントが\(n\)個あ

RSE,真の回帰直線と観測データがどれくらい離れているか

真の回帰直線がわかったとしても、全てのデータが回帰直線の上に乗っているのでなければ、
回帰直線を使って値を予測したときに誤差が出てくる。

残差平方和(Residual sum of square)。WikipediaにもRSS。
\(\hat{y_i}\)は訓練データを使って得られた回帰係数で作った回帰直線で予測した値。
だから、RSS自体も訓練データに対応して変動する。
\begin{eqnarray}
RSS=\sum_{i=1}^n (y_i-\hat{y_i})^2
\end{eqnarray}

で、知りたいのはRSSが訓練データに対してどの程度変動するかだから標準偏差。
標本分散は不偏推定量ではなくて分布の自由度で割る必要がある…という話があって、
不偏推定量を求める段取りが必要。\(n-1\)ではなく\(n-2\)で割る!。詳しくは以下。
カイ2乗分布になりそうだけれども、自由度が何故\(n-2\)なのだろうか…。

\begin{eqnarray}
RSE= \sqrt{\frac{1}{n-2}\sum_{i=1}^{n}(y_i-\hat{y_i}^2)}
\end{eqnarray}

Why divide RSS by n-2 to get RSE?

The reason is based on trying to get an unbiased estimator of the underlying error variance in the regression. In a simple linear regression with normal error terms it can be shown that:That is, under the standard assumption of normally distributed errors, the residual sum-of-squares has a chi-squared distribution with ?−2 degrees of freedom.

決定係数\(R^2\)

RSS,RSEは\(Y\)の単位で値が決まる。\(y_i\)が無茶苦茶大きいとRSEは大きくなる。
RSEだけ見て回帰直線がどれだけ当てはまっているか言えない様子。
当てはまりの良さを\(0\)から\(1\)の範囲におさめる別の指標もある。

TSS (Total sum of square)として以下。
\begin{eqnarray}
TSS = \sum_{i-1}^{n}(y_i-\bar{y_i})^2
\end{eqnarray}

\(R^2\)として以下。
\begin{eqnarray}
R^2 &=& \frac{TSS-RSS}{TSS} \\
&=& 1-\frac{RSS}{TSS} \\
&=& 1 – \frac{\sum_{i=1}^n (y_i-\hat{y_i})^2}{\sum_{i-1}^{n}(y_i-\bar{y_i})^2}
\end{eqnarray}

回帰直線の当てはまりの指標

RSE,真の回帰直線と観測データがどれくらい離れているか

決定係数\(R^2\)

Snowpark Container Services上でWebアプリ(FastAPI/React/TypeScript)を動かしてみた

Azure Queue StorageとAzure Service Busを比較してみた

Azure Functionsの機能まとめ（座学版）

External Network Accessを使ってSnowflakeとFitbitAPIを繋いでみた話

Deep dive into the internals of Snowflake Virtual Warehousesを読んでみた

GCSとのストレージ統合を設定した話

デプロイメントについて調べてみた話（端折り気味）

dbtのドキュメント生成機能について調べてみた話

The dbt Viewpointを読んでみた話

テストとDAGの構築について考えてみた話

Snowpark Container S

Azure Queue Storageと