前回、迷惑メールの判定で有名な「ナイーブベイズフィルタ」を紹介しましたが、今回は「確率分布」と「確率密度関数」について簡単に紹介します。
ベイズ統計がイメージできるようになるので、ぜひ理解しておきましょう。
「確率変数」と「確率分布」とは?
たとえば、理想的なサイコロがあれば、それぞれの目1~6が出る確率は、\(\frac{1}{6}\)になりますよね。
この確率の分布のことを「確率分布」と言い、サイコロの目の値\(X\)を「確率変数」と言います。そして、確率分布を次の表であらわした場合、
「確率変数」\(X\)の平均値\(μ\)は、次の式で定義できます。
$$μ=x_1 p_1+x_2 p_2+ \cdots +x_n p_n$$
これをサイコロの目の平均値(期待値)に適応すると、
$$μ=1\times\frac{1}{6}+2\times\frac{1}{6}+\cdots+6\times\frac{1}{6}=3.5$$
と求めることができました。もちろん、小学校のときに習った平均値も同様に求められます。たとえば、
$$\mbox{平均値}=\frac{60\times1+70\times2+80\times3+90\times3+100\times1}{10}=81$$
これは「確率分布」として求めても同様の結果が得られます。
$$\mbox{平均値}=60\times\frac{1}{10}+70\times\frac{2}{10}+80\times\frac{3}{10}+90\times\frac{3}{10}+100\times\frac{1}{10}=81$$
では、引き続き「分散」について求めてみましょう。先ほどの「確率分布」で分散を求める式は、平均値を\(μ\)、分散を\(σ^2\)とすると、
$$σ^2=(x_1-μ)^2p_1+(x_2-μ)^2p_2+ \cdots +(x_n-μ)^2p_n$$
と定義できます。これをサイコロの目に適応すると、
$$σ^2=(1-3.5)^2\times\frac{1}{6}+(2-3.5)^2\times\frac{1}{6}+\cdots+(6-3.5)^2\times\frac{1}{6}=\frac{35}{12}$$
ただし、\(σ\)が2乗になっているので、平方根をとって\(σ\)を求めたものを「標準偏差」と言います。サイコロの目の場合は、
$$σ=\sqrt\frac{35}{12}\approx1.7$$
と求めることができました。
「確率密度関数」とは?
では次に「確率密度関数」について説明します。
たとえば、工場で生産される\(100g\)のチョコレートを考えた場合、\(100g\)ぴったりになることはありませんよね。絶対に誤差が発生します。
そのため、\(100g\)ぴったりのチョコレートを取り出せる確率は\(0%\)になってしまうので確率計算ができません。
そこで、たとえば\(100g\)から\(101g\)の間に入る確率を求めます。次の図のように、関数と求めたい範囲で囲まれた面積を確率とするんですよね。
つまり、積分するのです。このとき、確率の変化をあらわした関数を「確率密度関数」と言います。
ベイズ統計を使ってコインの確率分布を調べよう
では、ここで例題を解いて理解を深めていきましょう。
表の出る確率が\(θ\)である1枚のコインがあります。このコインを3回投げたとき、1回目は表、2回目も表、3回目は裏が出ました。このとき、表の出る確率\(θ\)の確率分布を求めましょう。
まず、データDを「1回目は表」とし、仮定Hを「表の出る確率は\(θ\)のコイン(以降\(θ\)のコインと書きます)」としてベイズの定理に当てはめると、
$$\mbox{データ「表」がθのコインから得られた確率}\\
= \frac{\mbox{θのコインで「表」が出る確率} × \mbox{θのコインの存在確率}}{\mbox{データ「表」が出た確率}}$$
ただし、これまでとは違い、左辺と右辺の分子はある決まった値ではなく、分布(関数)になります。そのため、次のように言葉の定義が変わります。
$$\mbox{データ「表」がθのコインから得られた確率:事後分布}\\
\mbox{θのコインで「表」が出る確率:尤度}\\
\mbox{θのコインの存在確率:事前分布}$$
ここで、「\(θ\)のコインの存在確率」を一様分布(=\(1\))とすると、「データ「表」が出た確率」はある決まった値になるため、
$$\mbox{データ「表」がθのコインから得られた確率}\\
= \frac{\mbox{θのコインで「表」が出る確率} × \mbox{θのコインの存在確率}}{\mbox{データ「表」が出た確率}}\\
= \frac{θ × 1}{\mbox{ある決まった値}} \propto kθ \mbox{ (}k\mbox{:比例定数)} $$
と、\(θ\)に比例することがわかります。
\(θ\)はコインの表が出る確率なので、取りうる範囲は\(0\)から\(1\)となり、この範囲で積分すると、
$$\int_0^1 kθ dθ = k\left[\frac{1}{2}θ^2\right]^1_0=\frac{1}{2}k$$
また、この積分結果は、確率の総和である\(1\)になるので、\(k=2\)と求めることができました。
つまり、1回目のデータ「表」が\(θ\)のコインから得られた確率は\(2θ\)になります。
この結果を使って、2回目のデータ「表」が\(θ\)のコインから得られた確率を求めると、
$$\mbox{データ「表」がθのコインから得られた確率}\\
= \frac{\mbox{θのコインで「表」が出る確率} × \mbox{θのコインの存在確率}}{\mbox{データ「表」が出た確率}}\\
= \frac{θ × 2θ}{\mbox{ある決まった値}} \propto kθ^2 \mbox{ (}k\mbox{:比例定数)} $$
と、\(θ^2\)に比例することがわかります。こちらも先ほど同様に積分すると、
$$\int_0^1 kθ^2 dθ = k\left[\frac{1}{3}θ^3\right]^1_0=\frac{1}{3}k$$
となり、\(k=3\)と求めることができました。つまり、2回目のデータ「表」が\(θ\)のコインから得られた確率は\(3θ^2\)になります。
この結果を使って、3回目のデータ「裏」が\(θ\)のコインから得られた確率を求めると、
$$\mbox{データ「裏」がθのコインから得られた確率}\\
= \frac{\mbox{θのコインで「裏」が出る確率} × \mbox{θのコインの存在確率}}{\mbox{データ「裏」が出た確率}}\\
= \frac{(1-θ) × 3θ^2}{\mbox{ある決まった値}} \propto k(1-θ)θ^2 \mbox{ (}k\mbox{:比例定数)} $$
と、\((1-θ)θ^2\)に比例することがわかります。こちらも先ほど同様に積分すると、
$$\int_0^1 k(1-θ)θ^2 dθ = \int_0^1 k(θ^2-θ^3) dθ = k\left[\frac{1}{3}θ^3-\frac{1}{4}θ^4\right]^1_0\\
=k\left(\frac{1}{3}-\frac{1}{4}\right)=\frac{1}{12}k$$
となり、\(k=12\)と求めることができました。つまり、3回目のデータ「裏」が\(θ\)のコインから得られた確率は\(12(1-θ)θ^2\)になります。
最後に
今回は、「確率分布」と「確率密度関数」について簡単に紹介してきました。
これが理解できれば難しそうに思えるベイズ統計もイメージできるようになるので、ぜひ理解しておきましょう。
コメント