default eye-catch image.

最尤推定

[mathjax] これは単なる趣味の記事です。 たいして数学が得意でもなかった偽理系出身のおっさんの懐古趣味。 PRMLは省略が多くて難しいです。 省略を紐解いても出てくるのが統計学入門レベルです。 鬼ですね。 ただ、厳密さを求めない簡単な説明をしてくれているところを先に読むと、 割と簡単に紐解けます。 \"互いに独立であること\"の復習 少し前に、\"違いに独立\"の定義を詳しめに読んだことがあった。 2つの確率変数(X)、(Y)があったとき、 (X=x)であり同時に(Y=y)である確率(P(X=x,Y=y)=f(x,y))について、 確率を定義できる空間(2次元ユークリッド空間(S)...)において、 (X,Y)が同時に起こる特別な事象(A)((S)の部分集合)を定義した。 begin{eqnarray} iint_S f(x,y)dydx = 1, f(x,y) geq 0 \\ P((X,Y) in A) = iint_A f(x,y)dydx end{eqnarray} 2変数の片方について積分した分布を周辺確率分布(marginal probability distribution)とよんだ。 begin{eqnarray} g(x) &=& sum_y f(x,y) \\ h(x) &=& sum_x f(x,y) end{eqnarray} (g(x),h(x))は、(f(x,y))において、片方の変数を固定して足し算したもの。 では、(g(x),h(x))から(f(x,y))を作れるかというと、 (g(x),h(x))が\"違いに独立\"である場合に限り、(g(x)とh(x))の積と(f(x,y))が等しくなった。 [clink url=\"https://ikuty.com/2018/10/17/statistical-independence/\"] 最尤推定 (N)個のデータ(boldsymbol{x}=begin{pmatrix}x_1 \\ x_2 \\ cdots \\ x_n end{pmatrix})が、平均(mu)、標準偏差(sigma)の正規分布(N(mu,sigma))から独立に生成されるとする。 また、(boldsymbol{x})は互いに独立であるとする。 各々のデータが発生する確率(P(x_i|mu,sigma)=Nleft(x_n | mu, sigma^2right))を 同時確率(P(boldsymbol{x}|mu,sigma))の周辺確率と考えることができる。 つまり以下の通り。 begin{eqnarray} p(boldsymbol{x} | mu, sigma^2 ) = prod_{n=1}^N Nleft(x_n | mu, sigma^2right) end{eqnarray} ここで、(boldsymbol{x})は既に与えられている訳なので、 (p(boldsymbol{x} | mu, sigma^2 ) )の変数部分は(mu)、(sigma)となる。 つまり、(p(boldsymbol{x} | mu, sigma^2 ) )は(mu)、(sigma)の関数。 (p(boldsymbol{x} | mu, sigma^2 ))を最大化する(mu)、(sigma)を求めようというのが、 最尤推定の考え方。 (p(boldsymbol{x} | mu, sigma^2 ) )の最大値を与える(mu)、(sigma)は、 両辺に対数をとった後でも最大値を与えるから、 計算しやすくするために両辺に対数をとる。 対数をとることで、右辺の積が対数の和になる。 高校数学で暗記したやつの連発。 begin{eqnarray} log p(boldsymbol{x} | mu, sigma^2 ) &=& log prod_{n=1}^N Nleft(x_n | mu, sigma^2right) \\ &=& -frac{1}{2sigma^2} sum_{n=1}^N left( x_n -mu right)^2 - frac{N}{2} log sigma^2 - frac{N}{2} log left( 2pi right) end{eqnarray} (mu)に関して最大化するためには、 (sigma)を定数として固定して(mu)で偏微分して、それが0とする。 右辺は第2項,第3項がゼロとなり、第1項の微分が残る。 begin{eqnarray} frac{partial }{partial mu} log p(boldsymbol{x} | mu, sigma^2 ) &=& frac{1}{sigma^2} sum_{n=1}^{N} left(x_n-muright) \\ &=& 0 end{eqnarray} これ、すなわち以下。 begin{eqnarray} frac{1}{sigma^2} left( sum_{n=1}^{N} x_n - Nmu right) &=& 0 \\ sum_{n=1}^{N} x_n &=& Nmu \\ mu = frac{1}{N} sum_{n=1}^{N} x_n end{eqnarray} なんと、(mu)は標本平均のときに最大化する!。 (sigma)に関して最大化するには、 (mu)を定数として固定して(sigma)で偏微分して、それが0とする。 これも高校数学で暗記したやつを連射する。 begin{eqnarray} frac{partial }{partial sigma} log p(boldsymbol{x} | mu, sigma^2 ) &=& left( -frac{1}{2sigma^2} sum_{n=1}^N left( x_n -mu right)^2 right)\' - left( frac{N}{2} log sigma^2 right)\' \\ &=& frac{1}{sigma^3} sum_{n=1}^N left( x_n -mu right)^2 - frac{N}{sigma} \\ &=& 0 end{eqnarray} これ、すなわち以下。 begin{eqnarray} frac{N}{sigma} = frac{1}{sigma^3} sum_{n=1}^N left( x_n -mu right)^2 \\ sigma^2 = frac{1}{N} sum_{n=1}^N left( x_n -mu right)^2 \\ end{eqnarray} なんと、(sigma^2)は標本分散のときに最大化する。 なぜ、(mu)、(sigma)それぞれ独立に偏微分して求めた値を使って、 もう片方を計算して良いのか、については時間がないから省略。 標本分散は不偏分散ではないことに起因して、 最尤推定により求められた分散は、不偏分散から過小に評価される。 [clink url=\"https://ikuty.com/2018/10/27/unbiased_variance/\"] PRMLでは、多項式曲線のフィッティングに最尤推定を使う内容になっていて、 最尤解が不偏でないことがわかりやすくなっている。 次回は、最大事後確率推定(maximum posterior)について。 以下を最大化する。 begin{eqnarray} pi(mu) L(mu) = frac{1}{sqrt{2pi}sigma_m} exp left( -frac{1}{2} left(frac{mu}{sigma_m}^2 right)right) prod_{j=1}^{n} frac{1}{sqrt{2pi} sigma_v} exp left( - frac{1}{2} left( frac{x_j -mu}{sigma_v} right)^2 right) end{eqnarray} パターン認識と機械学習 上posted with amazlet at 19.01.22C.M. ビショップ 丸善出版 売り上げランキング: 21,190Amazon.co.jpで詳細を見る 統計学入門 (基礎統計学Ⅰ)posted with amazlet at 19.01.22東京大学出版会 売り上げランキング: 3,133Amazon.co.jpで詳細を見る

default eye-catch image.

標本調査に必要なサンプル数の下限を与える2次関数

[mathjax] 2項分布に従う母集団の母平均を推測するために有意水準を設定して95%信頼区間を求めてみた。 母平均のあたりがついていない状況だとやりにくい。 [clink url=\"https://ikuty.com/2019/01/11/sampling/\"] (hat{p})がどんな値であっても下限は(hat{p})の関数で抑えられると思ったので、 気になって(hat{p})を変数のまま残すとどうなるかやってみた。 begin{eqnarray} 1.96sqrt{frac{hat{p}(1-hat{p})}{n}} le 0.05 \\ frac{1.96}{0.05}sqrt{hat{p}(1-hat{p})} le sqrt{n} \\ 39.2^2 hat{p}(1-hat{p}) le n end{eqnarray} 左辺を(f(hat{p}))と置くと (f(hat{p}))は下に凸の2次関数であって、 (frac{d}{dhat{p}}f(hat{p})=0)の時に最大となる。というか(hat{p}=0.5)。 (hat{p}=0.5)であるとすると、これはアンケートを取るときのサンプル数を求める式と同じで、 非常に有名な以下の定数が出てくる。 begin{eqnarray} 1537 * 0.5 (1-0.5) le n \\ 384 le n end{eqnarray} (hat{p})がどんな値であっても、サンプル数を400とれば、 有意水準=5%の95%信頼区間を得られる。 だから、アンケートの(n)数はだいたい400で、となる。 さらに、有意水準を10%にとれば、(n)の下限は100で抑えられる。 なるはやのアンケートなら100、ちゃんとやるには400、というやつがこれ。

default eye-catch image.

標本調査に必要なサンプル数を素人が求めてみる。

[mathjax] ちょっと不思議な計算をしてみる。 仮定に仮定を積み重ねた素人の統計。 成功か失敗かを応答する認証装置があったとする。 1回の試行における成功確率(p)は試行によらず一定でありベルヌーイ試行である。 (n)回の独立な試行を繰り返したとき、成功数(k)を確率変数とする離散確率変数に従う。 二項分布の確率密度関数は以下の通り。 begin{eqnarray} P(X=k)= {}_n C_k p^k (1-p)^{n-k} end{eqnarray} 期待値、分散は、 begin{eqnarray} E(X) &=& np \\ V(X) &=& np(1-p) end{eqnarray} (z)得点(偏差値,つまり平均からの誤差が標準偏差何個分か?)は、 begin{eqnarray} z &=& frac{X-E(X)}{sigma} \\ &=& frac{X-E(X)}{sqrt{V(X)}} \\ &=& frac{X-np}{sqrt{np(1-p)}} end{eqnarray} であり、(z)は標準正規分布に従う。 これを標本比率(hat{p}=frac{X}{n})を使うように式変形する。 begin{eqnarray} z &=& frac{frac{1}{n}}{frac{1}{n}} frac{X-np}{sqrt{np(1-p)}} \\ &=& frac{frac{X}{n}-p}{sqrt{frac{p(1-p)}{n}}} \\ &=& frac{hat{p}-p}{sqrt{frac{p(1-p)}{n}}} end{eqnarray} (n)が十分に大きいとき、(z)は標準正規分布(N(0,1))に従う。 従って、(Z)の95%信頼区間は以下である。 begin{eqnarray} -1.96 le Z le 1.96 end{eqnarray} なので、 begin{eqnarray} -1.96 le frac{hat{p}-p}{sqrt{frac{p(1-p)}{n}}} le 1.96 end{eqnarray} (hat{p})は(p)の一致推定量であるから、(n)が大なるとき(hat{p}=p)とすることができる。 begin{eqnarray} -1.96 le frac{hat{p}-p}{sqrt{frac{hat{p}(1-hat{p})}{n}}} le 1.96 \\ end{eqnarray} (p)について解くと(p)の95%信頼区間が求まる。 begin{eqnarray} hat{p}-1.96 sqrt{frac{hat{p}(1-hat{p})}{n}} le p le hat{p}+1.96 sqrt{frac{hat{p}(1-hat{p})}{n}} end{eqnarray} 上記のにおいて、標準誤差(1.96sqrt{frac{hat{p}(1-hat{p})}{n}})が小さければ小さいほど、 95%信頼区間の幅が狭くなる。この幅が5%以内であることを言うためには以下である必要がある。 (有意水準=5%) begin{eqnarray} 1.96sqrt{frac{hat{p}(1-hat{p})}{n}} le 0.05 end{eqnarray} 観測された(hat{p})が(0.9)であったとして(n)について解くと、 begin{eqnarray} 1.96sqrt{frac{0.9(1-0.9)}{n}} le 0.05 \\ frac{1.96}{0.05} sqrt{0.09} le sqrt{n} \\ 11.76 le sqrt{n} \\ 138.2 le n end{eqnarray} 139回試行すれば、100回中95回は(p)は以下の95%信頼区間に収まる。 つまり95%信頼区間は以下となる。 begin{eqnarray} hat{p}-1.96 sqrt{frac{hat{p}(1-hat{p})}{n}} &le& p le hat{p}+1.96 sqrt{frac{hat{p}(1-hat{p})}{n}} \\ 0.9-1.96 frac{sqrt{0.09}}{sqrt{139}} &le& p le 0.9 + 1.96 frac{sqrt{0.09}}{sqrt{139}} \\ 0.9-1.96 frac{0.3}{11.78} &le& p le 0.9+1.96 frac{0.3}{11.78} \\ 0.85 &le& p le 0.95 end{eqnarray} (n)を下げたい場合は有意水準を下げれば良い。 統計的に有意水準=10%まで許容されることがある。 有意水準が10%であるとすると、(n)は35以上であれば良いことになる。 begin{eqnarray} 1.96sqrt{frac{0.9(1-0.9)}{n}} le 0.1 \\ frac{1.96}{0.1} sqrt{0.09} le sqrt{n} \\ 5.88 le sqrt{n} \\ 34.6 le n end{eqnarray} 信頼区間と有意水準の式において(p)を標本から取ってきたけど、 アンケートにおいてYes/Noを答える場合、(p)は標本における最大値(つまり0.5)を 設定して(n)を求める。 つまり、(p)として利用するのは標本比率ではないのかな?と。 このあたり、(hat{p})を変数として残すとどういうことがわかった。 [clink url=\"https://ikuty.com/2019/01/13/sampling_with2/\"]

default eye-catch image.

標本平均の母平均の推定

[mathjax] zozoスーツではないけれども、標本が正規分布に従うというのは、 真実の母平均に対して正規分布に従う計測誤差を含む分布を観測しているのと同じ。 母平均(mu)が未知である現象を計測誤差がわかっている計測手段で計測する話。 (n)回計測を行って得られた標本(X_1,X_2,cdots,X_n)は、母平均を中心として誤差分振れているはず。 つまり、(X_1=mu+e_1,X_2=mu+e_2,cdots,X_n=mu+e_N)。 誤差(e_i)は平均0、分散(sigma^2)の正規分布(N(0,sigma^2))に従うと考えると、 標本(X_i)は(mu)だけオフセットした正規分布(N(mu,sigma^2))に従うと考えられる。 標本平均は(bar{X}=frac{1}{n}(X_1+X_2+cdots+X_n))だから、 (n)に関係なく(E(bar{X})=mu)であって、(V(bar{X})=frac{sigma^2}{n})から(lim_{nrightarrow infty}V(bar{X})=0)。 中心極限定理により大なる(n)のとき(bar{X})の分布は正規分布(N(mu,frac{sigma^2}{n}))で近似できる。 標本(X_i)の標準偏差が(sigma)である一方、標本平均の標準偏差は(frac{sigma}{sqrt{N}})だから、 標本の分布より、標本平均の分布の方が裾が狭い。 正規分布(N(mu,frac{sigma^2}{n}))を標準化しておくと、標準正規分布の累積度数表を使って 平均(mu)、標準偏差(sigma)を評価できるようになる。z得点は以下の変換。 begin{eqnarray} Z=frac{bar{X}-mu}{frac{sigma}{sqrt{n}}} end{eqnarray} 分布(Z)は平均0、標準偏差1の標準正規分布になる。 見方としては、残差が標準偏差何個分か?の分布。全部足して1になる。 (bar{X},mu,sigma,n)として具体的な値を入れると数値(Z)が決まる。 ちなみに確率密度関数と累積度数は以下の通り。 begin{eqnarray} f(x) &=& frac{1}{sqrt{2pi}} exp left( -frac{x^2}{2} right) \\ int_{-infty}^{infty} f(x) dx &=& 1 end{eqnarray} (x=0)から(x=z)の面積(int_0^{z} frac{1}{sqrt{2pi}} left( -frac{x^2}{2} right) )を(Phi(z))とおき、 (Phi(z)=a)となる点を上側(a)パーセント点という名前が付いている。 (Phi(z))の積分は解析的に計算できないけれど、有用だし決まった数値なので、 ここみたいに表ができているからルックアップすれば良い様子。 (Z)得点が1.96であったとすると、標準正規分布表から(Phi(z=1.96)=0.475)であることがわかる。 これは上側確率が0.475という意味なので、両側確率は2をかけて0.975ということになる。 逆に言うと、(mu)だけが不明で、既知の母分散と標本平均から(mu)を推測することに、 この話を使うことができる。つまり、(-1.96 le z le +1.96)という式を立てると、 (mu)の信頼区間を作ることができる。つまり、(n)個の標本を取る操作を100回繰り返すと97.5回は 信頼区間が母平均を含まない区間になっている。 例 確率変数(X)が平均2、分散10の正規分布(N(2,10))に従うとする。 95%信頼区間は(-1.96 lt z lt 1.96)から、 (-1.96 sqrt{10} + 2 lt X lt 1.96 sqrt{10} + 2)。 (-4.2 lt X lt 8.2)。 100回試すと97.5回は母平均がこの区間にある。 (X)が負になる確率は、(Z=frac{X-2}{sqrt{10}})から、(sqrt{10}Z+2lt 0)、(Z lt -frac{2}{sqrt{10}})、(Z lt - 0.633)。 (P(X lt 0)=P(Z lt -0.633)=1-P(z lt 0.633))。

default eye-catch image.

たたみこみと正規分布の再生性

[mathjax] 正規母集団からの推定をやる前に、正規分布の再生性の理解が必要だったのでまとめてみる。 独立な確率変数(X_1)、(X_2)がそれぞれ確率分布(g(x))、(h(x))に従うとする。 各確率変数の和(X_1+X_2)が従う確率分布を(k(z))とする。 確率(P(X_1+X_2=z))を考えると、(X_1+X_2=z)となるのは、 (X_1=x, X_2=z-x)としたとき、両者を足して(z)になる全ての組み合わせ。 (X_1)は(g(x))、(X_2)は(h(z-x))に従うので、両者が同時に起こる確率は(g(x)h(z-x))。 これをまとめて書くと、 begin{eqnarray} k(z) = sum_x g(x)h(z-x) end{eqnarray} この形が「たたみこみ(convolution)」。  (k = g * x)と書く。 確率変数(X_1)、(X_2)が独立で、それぞれ平均(mu_1)、(mu_2)、分散(sigma_1^2)、(sigma_2^2)の正規分布に従うなら、 以下が成り立つ。 begin{eqnarray} N(mu_1,sigma_1^2) * N(mu_2,sigma_2^2) = N (mu_1+mu_2, sigma_1^2 + sigma_2^2) end{eqnarray} これ、モーメント母関数を使って証明できる様子。 ある分布のモーメント母関数があったとして、モーメント母関数を(n)回微分して変数を(0)と置くと、 分布の期待値、分散、歪度、突度など統計量を求められるやつ。 [clink url=\"https://ikuty.com/2018/09/22/moment_generating_funuction/\"] 正規分布の確率密度関数とモーメント母関数は以下の通り。 begin{eqnarray} f(x) &=& frac{1}{sqrt{2pisigma}} expleft( - frac{(x-mu)^2}{2sigma^2} right) \\ M(t) &=& exp left( mu t + frac{sigma^2 t^2}{2} right) end{eqnarray} もちろん、(N(mu_1,sigma_1^2))、(N(mu_2,sigma_2^2))のモーメント母関数は, begin{eqnarray} M_1(t) &=& exp left( mu_1 t + frac{sigma_1^2 t^2}{2} right) \\ M_2(t) &=& exp left( mu_2 t + frac{sigma_2^2 t^2}{2} right) \\ end{eqnarray} かけると、以下の通り(N(mu_1+mu_2,sigma_1^2+sigma_2^2))のモーメント母関数となる。 begin{eqnarray} M_1(t) M_2(t) &=& expleft( mu_1 t +frac{sigma_1^2 t^2}{2} right) expleft( mu_2 t + frac{sigma_2^2 t^2}{2} right) \\ &=& expleft( (mu_1+mu_2) t +frac{(sigma_1^2 + sigma_2^2) t^2}{2} right) end{eqnarray} たたみこみの操作は、独立な確率変数(X_1,X_2)について(X_1+X_2)の確率分布を求める操作だから、 この結果は独立な確率変数(X_1,X_2)が(N(mu_1,sigma_1^2))、(N(mu_2,sigma_2^2))に従うとき、 (X_1+X_2)が(N(mu_1+mu_2,sigma_1^2+sigma_2^2))に従うことを意味する。 ある確率分布のたたみ込みの結果が同じ確率分布になることを再生性(reproductive)というらしい。 正規分布の再生性を使った演算 正規分布には再生性があるので、以下みたいな演算ができる。 (X_1,X_2,cdots,X_n)が独立で、それぞれ正規分布(N(mu_1,sigma_1^2),N(mu_2,sigma_2^2),cdots,N(mu_N,sigma_N^2) )に 従うとき、(X_1+X_2+cdots+X_n)は(N(mu_1+mu2+cdots,mu_N,sigma_1^2+sigma_2^2+cdots+sigma_N^2))に従う。 (X_1,X_2,cdots,X_n)が全て同じ(N(mu,sigma^2))に従うなら、 (X_1+X_2+cdots+X_n)は、(N(nmu, nsigma^2))に従う。 (bar{X}=frac{X_1+X_2+cdots+X_n}{n})は(N(mu,frac{sigma^2}{n}))に従う。

default eye-catch image.

標本分散(sample variance)と不偏分散(unbiased variance)

[mathjax] 不偏分散は(frac{1}{n} sum_{i=1}^n (X_i-bar{X})^2)ではなく、(frac{1}{n-1} sum_{i=1}^n (X_i-bar{X})^2)。 分母から1を引く必要がある。なんでか調べてみたので書いてみる。 標本平均は(n)の大小によらず母平均の近傍にあって、母平均に確率収束する。 標本平均は(n)の大小に関係なく、その期待値と母平均が等しい(不偏)。 begin{eqnarray} E(bar{X}) &=& frac{1}{n}nmu = mu \\ lim_{n rightarrow infty} V(bar{X}) &=& 0 end{eqnarray} 100個のデータがあって、その中から5個取ったときの平均と、50個取ったときの平均に 母平均の推測という意味で違いがない。 では、分散はどうか。 定義通り標本の分散を(S^2 = frac{1}{n}{ (X_1-bar{X})^2 + (X_2-bar{X})^2 + cdots + (X_n-bar{X})^2 } )とすると、 (S^2)は母分散と等しくならない。不偏にならない。つまり、(E(S^2) ne sigma^2)。 その値が不偏であるか否かは、実際に期待値を式変形してみるとわかる。 結論を知っていないと出来ない変形ばかりだけども...。 begin{eqnarray} E(S^2) &=& Eleft[frac{1}{n} sum_{i=1}^n (x_i-bar{X})^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n (x_i-bar{X})^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n left( (x_i-mu)-(bar{X}-mu) right)^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n (x_i-bar{X})^2 -2sum_{i=1}^n(x_i-mu)(bar{X}-mu) + sum_{i=1}^n (bar{X}-mu)^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n (x_i-bar{X})^2 -2n (bar{X}-mu) +n (bar{X}-mu)^2 right] \\ &=& frac{1}{n} Eleft[ sum_{i=1}^n (x_i-bar{X})^2 - n(bar{X}-mu)^2 right] \\ &=& frac{1}{n} sum_{i=1}^n Eleft[ (x_i-mu)^2 right] - Eleft[ (bar{X}-mu)^2 right] \\ &=& frac{1}{n} sum_{i=1}^n V(x_i) - V(bar{X}) \\ &=& sigma^2 - frac{1}{n} sigma^2 \\ &=& frac{n-1}{n} sigma^2 end{eqnarray} ということで、(E(S^2)ne sigma^2)。不偏でない。 では、どうすれば不偏な標本分散を得られるのか。 (E(S^2)=frac{n-1}{n} sigma^2)から、(frac{n}{n-1}E(S^2)=sigma^2)なので、(s^2=frac{n}{n-1}E(S^2))とすれば、 (s^2=sigma^2)ということになり、(s^2)は不偏となる。(s^2)を不偏分散という。 begin{eqnarray} s^2 = frac{n}{n-1} { (X_1-bar{X})^2 + (X_2-bar{X})^2 + cdots + (X_n-bar{X})^2 } end{eqnarray} 100個データがあって、10個データをとったときと、100個データをとったときの (E(S^2))の母分散とのズレは以下の通り。10個のとき(E(S^2))をそのまま計算してしまうと、 その値は母分散から10%もズレてしまう。100個にしても1%ずれる。 begin{eqnarray} E(S_{10}^2) &=& frac{9}{10}sigma^2 \\ E(S_{100}^2) &=& frac{99}{100}sigma^2 \\ end{eqnarray}

default eye-catch image.

母集団の種類に関係なくランダムウォークが正規分布に従う

[mathjax] 統計のど真ん中。大数の法則と中心極限定理。 確かに奇跡的な美しさを感じる...。 同じ確率分布に従う独立な確率変数(X_1,X_2,cdots,X_n)について、(n)が大きければ (bar{X}=frac{X_1+X_2+cdots+X_n}{n})と置いたときに、(E(bar{X})=E(X_n))として扱ってよかった。 ((bar{X})は(mu)に確率収束した。(n)が次第に大きくなるにつれて(V(bar{X)})が0に収束した。) begin{eqnarray} lim_{n rightarrow infty}P(|X_n-mu|ge epsilon) rightarrow 0 end{eqnarray} なんとなく、最頻値を峰として(n)の増加に伴って峰が険しくなっていきそうだけど、 実際、(X_i)がどんな確率分布に従っていたとしても、 (S_n=X_1+X_2+cdots+X_n)は平均(nmu)、標準偏差(sqrt{n}sigma)の正規分布に従う(と考えて良い)らしい。 (bar{X})は平均(mu)、標準偏差(frac{sigma}{sqrt{n}})の正規分布に従う。 これが中心極限定理(Central limit theorem)。 (n)が大きくなったとき、ランダムウォーク(S_n)は平均(nmu)、標準偏差(sqrt{n}sigma)の分布が正規分布になる、 というのは以下のようにかけるらしい。 右辺は標準正規分布の確率密度関数の定積分。 左辺は既に正規分布であることを前提にしているような... begin{eqnarray} Pleft(a le frac{S_n -nmu}{sqrt{n}sigma} le bright) rightarrow int_a^b frac{1}{sqrt{2pi}}e^{-frac{x^2}{2}}dx end{eqnarray} (frac{S_n-nmu}{sqrt{n}sigma}=frac{n(frac{1}{n}S_n-mu)}{sqrt{n}sigma}=frac{bar{X}-mu}{frac{sigma}{sqrt{n}}}) みたいに変形すると、 以下のようにすることもできる。 正規分布を標準正規分布に変換するために(つまり平均=0、標準偏差=1にするために)、 標準偏差で割る(つまり標準偏差何個分か?)変換。 begin{eqnarray} Pleft(a le frac{bar{X}-mu}{frac{sigma}{sqrt{n}}} le b right) rightarrow int_a^b frac{1}{sqrt{2pi}}e^{-frac{x^2}{2}}dx end{eqnarray} 統計学入門に奇跡的な証明が書いてあるけど完全に写経になるので終わり。

default eye-catch image.

統計的推測と大数の法則

[mathjax] 大数の法則は、標本数が大きくなったときに標本平均が母平均に確率収束することを数学的に表す。 begin{eqnarray} lim_{n rightarrow infty} P(|bar{X}-mu|ge epsilon) rightarrow 0 end{eqnarray} 母集団の確率分布がわかっていれば、母平均、母分散、標準偏差などの統計量は定義済みだから、 標本数が多いという仮定があれば、標本から母平均を見立てて計算し、 見立てた母平均が\"どの程度\"真の母平均に収束しているかを言うことで、 標本がどの程度母集団を言い当てているかを言うことができる。 1か0が起こるベルヌーイ試行を100回やって、1が80回、0が20回起こったとする。 この100回の標本は\"たまたま\"取得した結果だけれども、 これが無限集団の一部分だったとして、今回得られた標本から無限集団の平均を得られないか。 まず、確率変数(X_1,X_2,cdots,X_{100})は以下の確率分布に従う。 begin{eqnarray} P(X_i=1) &=& frac{80}{100} = 0.8 \\ P(X_i=0) &=& frac{20}{100} = 0.2 end{eqnarray} さらに確率変数(X_1,X_2,cdots,X_{100})は(p=0.8)のベルヌーイ分布に従う。 その平均は(p=0.8)、分散は(p(1-p)=0.16)。 これは\"たまたま\"取得した100個の標本を使って作った母平均と母分散。 では、この\"たまたま\"の母平均と母分散を使って、 (bar{X}=frac{X_1+X_2+cdots+X_n}{n})に関する(E(bar{X}))、(V(bar{X}))を計算する。 (E(bar{X})=mu)、(V(bar{X})=frac{sigma^2}{n})であるから、 (E(bar{X})=0.8)、(V(bar{X})=0.0016)、((sqrt{V(bar{X})}=0.04 )) 大数の法則(弱法則)により、\"たまたま\"の100回という試行において、 (bar{X})は0.8に確率収束し、その標準偏差は(0.04)であることがわかる。 試行回数を増やしていくと、標準偏差が0に収束する。 100回という試行回数において、1が起こる回数は平均80回で、上下に(pm 4% )ばらける。 無限大まで増やしていく途中、100回という区切りではこうだった、ということで、 さらに増やしていくと、上下の幅が(pm 4% )からさらに狭くなる。 全ての標本を得ないでも、手元の標本だけから、 上下の幅という曖昧さを残すことで推測できる。 大数の法則 (n)個の確率変数(X_1,X_2,cdots,X_n)が平均(mu)、分散(sigma^2)の分布に独立に従うとき、 和を(n)で割った平均の分布(bar{X}=frac{X_1+X_2+cdots+X_n}{n})について、平均、分散はそれぞれ、 begin{eqnarray} E(bar{X}) &=& frac{nmu}{n} = mu \\ V(bar{X}) &=& frac{nsigma^2}{n^2} = frac{sigma^2}{n} end{eqnarray} (n)の極限をとったとき、標本平均は母平均(mu)に収束し、分散はゼロに収束する。 begin{eqnarray} lim_{n rightarrow infty} E(bar{X}) &=& mu \\ lim_{n rightarrow infty} V(bar{X}) &=& 0 \\ end{eqnarray} (n)が少ない間は、(mu)の近傍に散らばって分布するが、 (n)が増えるに従って、(mu)の近傍の散らばりの範囲が狭くなっていく。 昔、写経した証明は以下。 だいぶ普通に読めるようになった。 [clink url=\"https://ikuty.com/2018/07/06/law_of_large_numbers/\"] 上で書いたように(V(bar{X})=frac{sigma^2}{n})だから、(sigma_n^2)は、(sigma_n^2=V(bar{X}_n)=frac{sigma^2}{n}) 以下のチェビシェフの不等式において、 begin{eqnarray} P(|X_n−mu|ge ksigma_n) &le& frac{1}{k^2} end{eqnarray} (ksigma_n=epsilon)とおく。(k=frac{epsilon}{sigma_n}=sqrt{n} frac{epsilon}{sigma}) だから、 begin{eqnarray} P(|X_n−mu|ge epsilon) &le& frac{sigma^2}{nepsilon^2} end{eqnarray} 極限を取ると、 begin{eqnarray} lim_{n rightarrow infty} P(|X_n−mu|≥epsilon) &=& lim_{n rightarrow infty }frac{1}{epsilon^2} cdot frac{sigma^2}{n} \\ &rightarrow& 0 end{eqnarray}

default eye-catch image.

エレベーターの定員

[mathjax] 620kgまで積載できるエレベータ。定員は何人でしょうか..? ネガティブ思考の大家としては、 太っている人が乗ることを考えて少なめな方が...と常日頃思っていたのだけど、 案外、悪いことばかり考えるのも客観的でないことがわかる。 数を打つと、大きいもとと小さいものが打ち消しあう。 良いことと悪いことが打ち消しあって平均に収まる。 確率変数が大量((n)個)にあったとき、それらが全て同じ分布に独立に従うとして、 その分布の平均が(mu)、分散が(sigma^2)だとする。それらの平均、分散は、 begin{eqnarray} E(X_1) = E(X_2) = cdots = E(X_n) = mu \\ V(X_1) = V(X_2) = cdots = V(X_n) = sigma^2 \\ end{eqnarray} 和の平均、分散は、標準偏差は、 begin{eqnarray} E(X_1+X_2+cdots + X_n) = nmu \\ V(X_1+V_2+cdots + X_n) = nsigma^2 \\ s = sqrt{n} sigma end{eqnarray} 人間1人の体重が平均65.0kg、標準偏差が6.0kgだとすると、 9人の平均は人数に比例して580kg。人数の増加にしたがって順当に見積もりが増える。 どれぐらい上にマージンが必要かというと..標準偏差は(sqrt{9}*6=18.0)kg。 最大積載重量が600kgであったとしても(+1sigma)の範囲に収まる! 620kgあれば、(+2sigma)も収まる。9人はいける。 振れ幅は(sqrt{n})に比例する。 (n)が大きくなっても大して振れ幅は大きくならない。 ちなみに、法令上(建築基準法施行令第129条)は、 1人あたり65kgとして頭数で割るだけが決まっているそうで、 体重の振れ幅については結局謎のまま。 床面積あたりにするとキツキツになる模様。 http://www.mitsubishielectric.co.jp/elevator/inquiry/faq/category01/qa3.html 最大積載重量が実際のハードリミットでそこでブザーがなるんだから、 定員、というソフトリミットは目安でしかないんだな。

default eye-catch image.

独立な確率変数の共分散がゼロであること

[mathjax] 共分散と相関係数の定義について過去に書いていた。 そもそも共分散が発生するのは、2つの確率変数が連動して動くから。 2つの確率変数が独立している場合は、共分散、相関係数共にゼロ。 共分散の定義 まず、共分散、相関係数の定義はこの通り。 2次元のデータ((x_1,y_1),(x_2,y_2),cdots,(x_n,y_n))が与えられた場合、 変数(x)と(y)の相関係数(r_{xy})は、それぞれの標準偏差(S_x,S_y)と、共分散(C_{xy})を使って以下となる。 begin{eqnarray} r_{xy} &=& frac{C_{xy}}{S_x S_y} \\ &=& frac{sum_{i=1}^n(x_i-bar{x})(y_i-bar{y})/n}{sqrt{sum_{i=1}^n{(x_i-bar{x})^2}/n} sqrt{sum_{i=1}^n{(y_i-bar{y})^2}/n}} \\ &=& frac{sum_{i=1}^n(x_i-bar{x})(y_i-bar{y})}{sqrt{sum_{i=1}^n{(x_i-bar{x})^2}} sqrt{sum_{i=1}^n{(y_i-bar{y})^2}}} \\ end{eqnarray} [clink url=\"https://ikuty.com/2018/08/13/correlation_coefficient/\"] [arst_adsense slotnumber=\"1\"] そもそもの共分散 確率変数(X),(Y)があったとする。それぞれの期待値は(E(X)),(E(Y))、分散は(V(X),V(Y))。 定義通りに(V(X+Y))を式展開していくと以下の通りになる。 begin{eqnarray} V(X+Y) &=& E(((X+Y)-mu_{X+Y})^2) \\ &=& E((X+Y-mu_x-mu_y)^2) \\ &=& E(((X-mu_x) + (Y-mu_y))^2) \\ &=& E((X-mu_x)^2) + E((Y-mu_y)^2) + 2E((X-mu_x)(Y-mu_y)) \\ &=& V(X) + V(Y) + 2E((X-mu_x)(Y-mu_y)) \\ &=& V(X) + V(Y) + 2C_{xy} end{eqnarray} ここで、(C_{xy}=2E((X-mu_x)(Y-mu_y)))を共分散としている。 (V(X+Y))は、(V(X))と(V(Y))の和に(C_{xy})で補正をかけた値になっている。 では、(X)と(Y)が独立であるとなぜ(C_{xy}=0)になるのか。 (C_{xy})を式変形していくと以下のようになるが、 begin{eqnarray} frac{1}{2} C_{xy} &=& E((X-mu_x)(Y-mu_y)) \\ &=& E(XY)-mu_yE(X)-mu_xE(Y) +mu_x mu_y \\ &=& E(XY) -mu_x mu_y - mu_x mu_y + mu_x mu_y \\ end{eqnarray} (X)と(Y)が独立であると(E(XY)=E(X)E(Y)=mu_x mu_u)となるから、 begin{eqnarray} frac{1}{2} C_{xy} &=& E(XY) -mu_x mu_y - mu_x mu_y + mu_x mu_y \\ &=& mu_x mu_y-mu_x mu_y - mu_x mu_y + mu_x mu_y \\ &=& 0 end{eqnarray} こうやって、独立であるなら共分散がゼロといえる。 [arst_adsense slotnumber=\"1\"]