時系列データと自己相関係数、コレログラムについてまとめてみる。
自己相関係数
時間の経過と共に得られた\(n\)個のデータ\(x_1,x_2,\cdots,x_n\)(時系列データ)があるとする。
\(x\)から\(h\)だけずらしたデータ\(y=x_{1+h},x_{2+h},\cdots,x_{n+h}\)との相関係数を遅れhの自己相関係数という。
\(n\)個のデータの平均\(\bar{x}\)は、
\begin{eqnarray}
\bar{x}=\frac{(x_1+\cdots+x_n)}{n}
\end{eqnarray}
相関係数を以下のように定義す模様。
\begin{eqnarray}
r_h = \frac{\frac{1}{n-h}(x_i-\bar{x})(x_{i+h}-\bar{x})}{\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})^2}
\end{eqnarray}
\(x_i\)に周期性があれば、周期が一致する\(h\)のところで、
例えば日を跨いだ同じ時間に当たる\(h\)に差しあたるところで、
相関係数が大きくなるはず。
\(r_h>0\)ということは、各時点の傾向は\(h\)時点先に持続するということ。
\(r_h<0\)ということは、各時点の傾向は\(h\)時点先に反転するということ。
コレログラム
\(h\)を0から大きくしていくことで\(r_h\)が上下するが、
その推移を見ることで、時系列データの周期の見当をつけることができる。