c3 教養 統計・機械学習

レアな観測がレアであることの定式化

投稿日:

レアな観測がレアであることの定式化

マルコフの不等式

任意の確率変数\(X\)と\(a\gt 0\)に対して以下が成りなってしまう。

\begin{eqnarray}
P(|X|\ge a) \le \frac{E[|X|]}{a}
\end{eqnarray}

\( k=a/E(X) \)とおくと以下となり、
平均の\(k\)倍を超える確率が\(\frac{1}{k}\)以下であることを意味する。
\begin{eqnarray}
P(|X| \ge k E[|X|]) \le \frac{1}{k}
\end{eqnarray}

証明は以下の通りにする模様。
結構簡単に導かれる。

\begin{eqnarray}
E(|X|) &=& \sum_{x}|x|P(X=a) \\
&\ge& \sum_{x:|x|\ge a}|x|P(x=a) \\
&\ge& \sum_{x:|x|\ge a}aP(x=a) = a P(|x|\ge a) \\
\end{eqnarray}

大数の法則の弱法則の証明のためにマルコフの不等式をいじる。
\(a = a^2\)、\(X = (X-\mu)^2\)とおく。
マルコフの不等式は以下のようになる。
\begin{eqnarray}
P(|x-\mu|\ge a) \le \frac{E(|X-\mu|^2)}{a^2}
\end{eqnarray}
チェビシェフの不等式という名前が付いているらしい。

ちなみに、
チェビシェフの不等式について、
\begin{eqnarray}
P(|X-\mu|\ge a) &\le& \frac{\sigma^2}{na^2} \\
\end{eqnarray}
\(a\)を\(k\sigma\)とする。
\begin{eqnarray}
P(|X-\mu|\ge k\sigma) &\le& \frac{\sigma^2}{nk^2\sigma^2} \\
&=& \frac{1}{nk^2} \\
&\le& \frac{1}{k^2}
\end{eqnarray}

これはどういうことか。

平均から\(k\sigma\)離れたデータはたかだか全体の\(\frac{1}{k^2}\)しか存在しない。

凄まじい。

母集団が平均\(\mu\)、標準偏差\(\sigma\)をもつ正規分布である場合、
全体の97.5%が\(2\sigma\)の区間に存在することを利用して、仮説検定、信頼区間を決めたりしてたが、
正規分布でない一般の分布においても\(k\)を上手く決めることで、同様に仮説検定、信頼区間を決めたりできる。

なんで持ち出したのか

それは、この2つの不等式を使うことで大事な大数の法則を証明できるから。

-c3 教養, 統計・機械学習
-

Copyright© ikuty.com , 2018 AllRights Reserved Powered by AFFINGER4.