教養 統計

確率変数、確率密度関数

更新日:


やりなおし統計もだいぶ頭が慣れてきた。
だいぶ赤本を読めるようになってきたぞ、という感触がある。
続けて確率密度関数の定義を読んでいく。

一線でやっているデータサイエンティスト(俗称)の方の話として、必要な数学力というのは
実はそこまで高くなく、線形代数といっても実は単に行列の掛け算ができる、とか、
解析学といっても、高校数学の数Ⅲぐらいだったりとか、そういうことを言う人が多いみたい。
(アカデミックな層とは2段も3段も劣るオッさんが基礎を学んだところで行けるラインなんて限界がある。)

機械学習と密接な関係の統計学くらいはちゃんとインプットしておきたいのだが。
もちろん一発で理解できる頭ではないので、たぶんこれから何度もやりなおすだろう。
一方で足りなかったら後から足していけば良いぐらいの位置に立てたかな、とも思う。

確率変数と確率分布

サイコロを投げてそれぞれの目が出る相対度数はおそらく\(1/6\)くらいだろう。
実際に出る目はランダムで相対度数は決まらなない。一方で確率の定義からそれぞれ\(1/6\)。
実際に出る目を\(X\)として表して、\(P(X) = 1/6\)として表現する。
つまり、
\begin{eqnarray}
P(X=1)=1/6, P(X=2)=1/6, P(X=3)=1/6, \\
P(X=4)=1/6, P(X=5)=1/6, P(X=6)=1/6
\end{eqnarray}
この\(X\)を確率変数という。
また\(P(X=x_k)=p_k\)を確率分布という。

加算集合\(\{x_1,x_2,\cdots,\}\)の中の値を取る確率変数\(X=x_k\)について
確率分布は離散的であり、\(\sum_{k=1}^{\infty} f(x_k) =1 \)である。
また、確率変数が連続である場合、\(P(a\leq X \leq b)=\int_{a}^{b} f(x) dx =1 \)である

確率密度関数

連続型の確率変数\(X\)について、\(P(x\leq X \leq x+ \Delta x)=\int_{a}^{b} f(x) dx \)と表す場合、
区間\(a\)から\(b\)の定積分、つまり面積が確率値となる。
\(X\)は連続型の確率分布をもつという。\(f(x)\)を\(X\)を確率密度関数という。
ここで、全ての\(X\)に対して以下が成り立つ。
\begin{eqnarray}
f(x) \geq 0 \\
\int_{-\infty}^{\infty}f(x) dx = 1
\end{eqnarray}

「密度」とは何なのか。
\(P(X)=\int_{a}^{b} f(x)\)の式において、\(a=b\)であるならば定積分は0である。
確率密度関数において一点の確率は0ということになる。
これだと、密度関数の大小が確率にどう影響を与えるか説明しづらい。

小さい\(\Delta x\)を考えたとき、面積を\(\Delta x\)を使って近似する。
微小区間に掛け与える値の大小\(f(x)\)が確率\(P(X)\)に影響する。
この振る舞いを「密度」と言っているらしい。
\begin{eqnarray}
P(x\leq X \leq x+ \Delta x) \simeq f(x)\cdot \Delta x
\end{eqnarray}

全ての確率変数\(X\)について均一に確率が存在している訳ではなく、
高い確率、低い確率の存在に濃淡がある。その様を表すのが確率密度関数である。
うん、特に難しくない。

-教養, 統計
-

Copyright© ikuty.com , 2024 AllRights Reserved Powered by AFFINGER4.