レアな観測がレアであることの定式化
[mathjax] レアな観測がレアであることの定式化 マルコフの不等式。 任意の確率変数(X)と(agt 0)に対して以下が成りなってしまう。 begin{eqnarray} P(|X|ge a) le frac{E[|X|]}{a} end{eqnarray} ( k=a/E(X) )とおくと以下となり、 平均の(k)倍を超える確率が(frac{1}{k})以下であることを意味する。 begin{eqnarray} P(|X| ge k E[|X|]) le frac{1}{k} end{eqnarray} 証明は以下の通りにする模様。 結構簡単に導かれる。 begin{eqnarray} E(|X|) &=& sum_{x}|x|P(X=a) \\ &ge& sum_{x:|x|ge a}|x|P(x=a) \\ &ge& sum_{x:|x|ge a}aP(x=a) = a P(|x|ge a) \\ end{eqnarray} 大数の法則の弱法則の証明のためにマルコフの不等式をいじる。 (a = a^2)、(X = (X-mu)^2)とおく。 マルコフの不等式は以下のようになる。 begin{eqnarray} P(|x-mu|ge a) le frac{E(|X-mu|^2)}{a^2} end{eqnarray} チェビシェフの不等式という名前が付いているらしい。 ちなみに、 チェビシェフの不等式について、 begin{eqnarray} P(|X-mu|ge a) &le& frac{sigma^2}{na^2} \\ end{eqnarray} (a)を(ksigma)とする。 begin{eqnarray} P(|X-mu|ge ksigma) &le& frac{sigma^2}{nk^2sigma^2} \\ &=& frac{1}{nk^2} \\ &le& frac{1}{k^2} end{eqnarray} これはどういうことか。 平均から(ksigma)離れたデータはたかだか全体の(frac{1}{k^2})しか存在しない。 凄まじい。 母集団が平均(mu)、標準偏差(sigma)をもつ正規分布である場合、 全体の97.5%が(2sigma)の区間に存在することを利用して、仮説検定、信頼区間を決めたりしてたが、 正規分布でない一般の分布においても(k)を上手く決めることで、同様に仮説検定、信頼区間を決めたりできる。 なんで持ち出したのか それは、この2つの不等式を使うことで大事な大数の法則を証明できるから。