重回帰分析と教師あり機械学習

機械学習と多変量解析は本質的に同じ

  • 重回帰分析
    • 観測された事象から目的変数と説明変数の関係をモデル化する。
    • 目的変数 = a×説明変数1+b×説明変数2+c×説明変数3+d
  • 機械学習
    • 大量のデータを読み込ませることで、人が教えることなくデータの特徴量を導き出す。
    • 機械学習により求められる特徴量は本質的に重回帰分析の係数に相当する。

時期的に、多変量解析(統計) << データマイニング < 機械学習。 要は多変量解析(統計)の理解がなければデータマイニング・機械学習の理解はおぼつかない。 多変量解析はExcelを使ったサンプルが多い。

Excelを使った重回帰分析のサンプル

Excelを使うと簡単に重回帰分析の実行結果を得られる。試しに実行してみる。
SNS広告(Seg.1)、Web広告(Seg.2)、口コミ広告(Seg.3)と売上実績(Sales)の関係が以下のようになっているとする。単位は無し。各広告手段の売上実績に対する寄与度をモデル化する。
つまり、Sales=a×Seg.1+b×Seg.2+c×Seg.3+d の係数(a,b,c,d) を求める。

Seg.1 Seg.2 Seg.3 Sales
4.9 3.1 1.5 0.1
5.4 3.7 1.5 0.2
4.8 3 1.4 0.1
4.3 3 1.1 0.1
5.8 4 1.2 0.2
5.7 4.4 1.5 0.4
5.4 3.9 1.3 0.4
5.1 3.5 1.4 0.3
5.7 3.8 1.7 0.3
5.1 3.8 1.5 0.3

回帰統計量

重回帰式 Sales=a×Seg.1+b×(Seg.2)+c×(Seg.3)+d の当てはまりの良さを表す統計量。
通常、重相関係数Rと重決定係数R2は説明変数の数が多いほど大きくなる傾向がある。
補正R2は説明変数の数を考慮した当てはまりの良さを表す。
そのため一般的に当てはまりの良さを見るためには補正R2を参照する。

重相関 R 0.874912
重決定 R2 0.765472
補正 R2 0.648207
標準誤差 0.06962
観測数 10

分散分析表

回帰式の全ての係数が同時に0であることの分析。有意F値が0.05未満ならば、統計的に全ての係数が0でないといえる。
有意F値が0に近ければ近いほど重回帰式の信頼度は高いことを表す。

自由度 変動 分散 観測された分散比 有意F
回帰 3 0.094918 0.031639 6.527751638 0.025607
残差 6 0.029082 0.004847
合計 9 0.124

以下より、a=-0.133596092、b=0.315699216、c=0.14050611、d=-0.403573178。係数の符号が正の場合、説明変数と目的変数に正の相関があることがわかる。係数の符号が負の場合は負の相関。絶対値は相関の強さ。

係数 標準誤差 t P-値
切片 -0.403573178 0.281209521 -1.435133408 0.201255935
Seg.1 -0.133596092 0.110652276 -1.207350601 0.27272798
Seg.2 0.315699216 0.105649301 2.988180827 0.024377448
Seg.3 0.14050611 0.152281548 0.922673246 0.391770244
下限 95% 上限 95% 下限 95.0% 上限 95.0%
切片 -1.091668089 0.284521732 -1.091668089 0.284521732
Seg.1 -0.404352457 0.137160273 -0.404352457 0.137160273
Seg.2 0.057184689 0.574213743 0.057184689 0.574213743
Seg.3 -0.232113414 0.513125635 -0.232113414 0.513125635

シェアする

  • このエントリーをはてなブックマークに追加

フォローする