正規分布に従う確率変数の二乗和はカイ二乗分布に従うことの証明

母平均\(\mu\)、標準偏差\(\sigma\)の正規分布から\(n\)個の標本を無作為抽出したとき、
\(n\)個の標本について二乗和\(V\)を計算した場合\(V\)はどのような分布をするか。
\begin{eqnarray}
V = x_1^2 + x_2^2 + \cdots + x_n^2
\end{eqnarray}
\(V\)の分布は自由度nのカイ二乗分布になる。
なお、実際にデータを表示してみた記事は以下。

正規分布に従う確率変数の二乗和はカイ二乗分布に従うことを実際にデータを表示して確かめる

以前、"正規分布に従う確率変数の二乗和はカイ二乗分布に従うことの証明"という記事を書いた。記事タイトルの通り、正規分布に従う確率変数の二乗和はカイ二乗分布に従う。実際にデータを生成して確かめてみる。まずは、scipi.stats.chi2.pdfを使って各自由度と対応す

証明の式変形が気持ち良いことで有名?なので1度やってみる。

証明が奇跡的だったのでまとめてみる

自由度\(n\)のカイ二乗分布の確率密度関数。
これでもかっ、というくらいにいろいろ乗っかってる。
\begin{eqnarray}
f_n(x) = \frac{1}{2^{\frac{n}{2}}\Gamma({\frac{n}{2}})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}
\end{eqnarray}

標準正規分布と同じ扱いで、
\(x\)に関する積分が1になるようにガンマ関数による定数項がついてる。
勢い以下のような見方になる。
\begin{eqnarray}
f_n(x) = \left( \frac{1}{2^{\frac{n}{2}}\Gamma({\frac{n}{2}})} \right) x^{\frac{n}{2}-1} e^{-\frac{x}{2}}
\end{eqnarray}

だから何なのか、と思うけども、一度は証明を見ておくと良し、という意見がある。
ド直球に、標準正規分布の確率密度関数から2乗和の分布を求めようとして、
奇跡的に上記の確率密度関数になってかなり面白かったのでまとめてみた。

\(n=1\)のときの証明

\(X\)が標準正規分布に従うときの確率密度関数は以下。
\begin{eqnarray}
f(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}
\end{eqnarray}
このとき\(X\)の2乗の分布\(Y=X^2\)の分布を考えようとするとき、
\(Y\le y\)となる確率\(P(Y\le y)\)は、
\begin{eqnarray}
P(Y\le y) = P(-\sqrt{y} \le X \le \sqrt{y})
\end{eqnarray}
となるので、\(Y\)の確率分布関数\(F(y)\)は、
\begin{eqnarray}
F(y) &=& \int_{-\sqrt{y}}^{\sqrt{y}}f(x)dx \\
&=& 2 \int_{0}^{\sqrt{y}}f(x)dx
\end{eqnarray}
\(y=x^2\)という変数変換をして微分すると、\(\frac{dy}{dx}=2x\)から、\(dy=2xdx=2\sqrt{y}dx\)。
これを使って書き直すと、（コレ考えたやつ頭おかしい…）
\begin{eqnarray}
F(y) &=& 2\int_{0}^{\sqrt{y}}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \\
&=& 2 \frac{1}{2} \int_{0}^{\sqrt{y}}\frac{1}{\sqrt{2\pi}y}e^{-\frac{x^2}{2}}dy \\
&=& \int_{0}^{\sqrt{y}}\frac{1}{\sqrt{2\pi}y}e^{-\frac{y}{2}}dy \\
&=& \int_{0}^{\sqrt{y}}\frac{1}{2^{\frac{1}{2}}\sqrt{\pi}}y^{-\frac{1}{2}}e^{-\frac{y}{2}}dy \\
\end{eqnarray}
ガンマ関数\(\Gamma(n)\)って何だっけ…、というところで力尽きた。
\(\Gamma(\frac{1}{2})\)だけ複素数にならず\(\sqrt{\pi}\)になる。
\(F(y)\)をガンマ関数を入れて書き直すと、
\begin{eqnarray}
F(y) = \int_{0}^{\sqrt{y}}\frac{1}{2^{\frac{1}{2}}\Gamma(\frac{1}{2})}y^{-\frac{1}{2}}e^{-\frac{y}{2}}dy \\
\end{eqnarray}
この式は奇跡的に\(n=1\)のとき、カイ二乗分布の確率密度関数になってる。
\begin{eqnarray}
f_1(x) &=& \frac{1}{2^{\frac{1}{2}}\Gamma({\frac{1}{2}})}x^{\frac{1}{2}-1}e^{-\frac{x}{2}}
\end{eqnarray}

\(n \ge 2\)のときの証明

数学的帰納法で証明する。このワード、何年振りだろうか…。
Wikipediaによると、

数学的帰納法（すうがくてききのうほう、英: mathematical induction）は自然数に関する命題 P(n) が全ての自然数 n に対して成り立っている事を証明するための、次のような証明手法である。

P(1) が成り立つ事を示す。

任意の自然数 k に対して、「P(k) ⇒ P(k + 1)」が成り立つ事を示す。

以上の議論から任意の自然数 n について P(n) が成り立つ事を結論づける。

準備として、確率密度関数の畳み込みについて。

2つの確率変数\(X_1\)、\(X_2\)が互いに独立に標準正規分布に従い、
\(Y_1=X_1^2\)、\(Y_2=X_2^2\)とおいたとき、\(Z=Y_1+Y_2\)が従う確率密度関数を求める。
確率変数\(Y_1\)、\(Y_2\)双方とも、確率密度関数\(h_1(x)\)に従うときは、
\(x=y_1+y_2, y_1,y_2 \ge 0, z \ge 0\)に注意して、
以下を計算することで確率変数\(Z=Y_1+Y_2=X_1^2+X_2^2\)が従う確率密度関数が求まる。
\begin{eqnarray}
h_2(x) = \int_0^{z}h_1(y)h_1(z-y)dy
\end{eqnarray}

\(P(1)\)は既に示されている。任意の自然数 \(n\) に対して、「\(P(n) ⇒ P(n + 1)\)」が成り立つ事を示す。
\(Y=X_1^2+X_2^2+\cdots+X_{n-1}^2\)が自由度\(n-1\)のカイ二乗分布に従い、
\(X_n^2\)が自由度\(1\)のカイ二乗分布に従うとき、\(Y+X_n\)が自由度\(n\)のカイ二乗分布に従うことを示す。

示すのは以下。
\begin{eqnarray}
f_n(x) = \int_{0}^{x}f_{n-1}(t)f_1(x-t)dt
\end{eqnarray}

右辺を展開していく。

\begin{eqnarray}
\int_{0}^{x} \frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})}t^{\frac{n-3}{2}} e^{-\frac{x}{2}} \cdot
\frac{1}{2^{\frac{1}{2}}\Gamma({\frac{1}{2})}}t^{-\frac{1}{2}}e^{-\frac{x}{2}}
\end{eqnarray}

\(t\)に対する定数項を積分の外に出せる。
\begin{eqnarray}
\frac{e^{-\frac{x}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n-1}{2})\sqrt{\pi}} \int_{0}^{x}t^{\frac{n-3}{2}}(x-t)^{-\frac{1}{2}}dt
\end{eqnarray}

ここで\(u=\frac{t}{x}\)とおくと、\(\frac{du}{dt}=\frac{1}{x}\)だから、\(dt=xdu\)。
変数を置き換える。奇跡的に\(x\)が積分の外に出る。
\begin{eqnarray}
\frac{e^{-\frac{x}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n-1}{2})\sqrt{\pi}} \int_{0}^{1}(ux)^{\frac{n-3}{2}}(x-ux)^{\frac{1}{2}}xdu \\
= \frac{e^{-\frac{x}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n-1}{2})\sqrt{\pi}} \int_{0}^{1}x^{\frac{n-3}{2}}
u^{\frac{n-3}{2}} x^{\frac{1}{2}}(1-u)^{\frac{1}{2}}xdu \\
= \frac{e^{-\frac{x}{2}}x^{\frac{n-3}{2}-\frac{1}{2}+1}}{2^{\frac{n}{2}}\Gamma(\frac{n-1}{2})\Gamma(\frac{1}{2})} \int_{0}^{1} u^{\frac{n-3}{2}}(1-u)^{-\frac{1}{2}}du
\end{eqnarray}

積分の部分は、昔みた覚えがあるけど、もう力尽きたので結論だけ…
以下の関係式があって、
\begin{eqnarray}
B(p,q) &=& \int_{0}^{1} x^{p-1}(1-x)^{q-1}dx \\
&=& \frac{\Gamma(p)\Gamma(q)}{\Gamma(p+q)}
\end{eqnarray}
\(p,q\)を以下のように選ぶと、
\begin{eqnarray}
B(\frac{n-1}{2},\frac{1}{2}) = \frac{\Gamma(\frac{n-1}{2})\Gamma(\frac{1}{2})}{\Gamma(\frac{n}{2})}
\end{eqnarray}

これを使って式を書き直すと、一気に約分されて自由度\(n\)のカイ二乗分布の式が現れる。
\begin{eqnarray}
\frac{e^{-\frac{x}{2}}x^{\frac{n-3}{2}-\frac{1}{2}+1}}{2^{\frac{n}{2}}\Gamma(\frac{n-1}{2})\Gamma(\frac{1}{2})} \int_{0}^{1} u^{\frac{n-3}{2}}(1-u)^{-\frac{1}{2}}du \\
= \frac{e^{-\frac{x}{2}}x^{\frac{n-3}{2}-\frac{1}{2}+1}}{2^{\frac{n}{2}}\Gamma(\frac{n-1}{2})\Gamma(\frac{1}{2})} \frac{\Gamma(\frac{n-1}{2})\Gamma(\frac{1}{2})}{\Gamma(\frac{n}{2})} \\
= \frac{1}{2^{\frac{n}{2}}\Gamma({\frac{n}{2}})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}} \\
= f_n(x)
\end{eqnarray}

Q.E.D.!!
あぁ、これは気持ち良い。

正規分布に従う確率変数の二乗和はカイ二乗分布に従うことの証明

証明が奇跡的だったのでまとめてみる

\(n=1\)のときの証明

\(n \ge 2\)のときの証明

AirflowでEnd-To-End Pipeline Testsを行うためにAirflow APIを調べてみた話

CustomOperatorのUnitTestを理解するためGCSToBigQueryOperatorのUnitTestを読んでみた話

GoogleによるAirflow DAG実装のベスプラ集を読んでみた – その1

Snowpark Container Services上でWebアプリ(FastAPI/React/TypeScript)を動かしてみた

Azure Queue StorageとAzure Service Busを比較してみた

Azure Functionsの機能まとめ（座学版）

External Network Accessを使ってSnowflakeとFitbitAPIを繋いでみた話

Deep dive into the internals of Snowflake Virtual Warehousesを読んでみた

GCSとのストレージ統合を設定した話

デプロイメントについて調べてみた話（端折り気味）

AirflowでEnd-To-End P

CustomOperatorのUnitT