期待値と分散も生成AIを理解する上で必要不可欠な知識です。そこで今回は、「期待値と分散」について説明します。
期待値と分散とは
まず、期待値 (Expectation) とは、\(x\) の確率分布を考慮したときの、ある関数 \(f(x)\) の平均的な値、期待される値のことです。離散型確率分布、および連続型確率分布の期待値 \(E[f(x)]\) は、それぞれ次の式で定義されます。
& E[f(x)] = \sum_{k=1}^N f(x_k)p(x_k) \\
& E[f(x)] = \int_{-\infty}^{\infty} f(x)p(x) dx
\end{align}
上の式より、期待値 \(E[f(x)]\) は、\(f(x)\) に \(x\) の確率で重みづけをして和/積分を取っていることがわかります。
一般的には、\(f(x)\) が \(x\) の場合を期待値と呼び、1回の観測で得られる値の平均値を求めます。
& E[x] = \sum_{k=1}^N x_kp(x_k) \\
& E[x] = \int_{-\infty}^{\infty} xp(x) dx
\end{align}
たとえば、前回紹介したサイコロの一様分布の期待値は、次のように求められます。
& E[x] = \sum_{k=1}^6 x_kp(x_k) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = 3.5
\end{align}
続いて、分散 (Variance) です。分散は、最初に紹介した期待値 \(E[f(x)]\) の式において、関数 \(f(x)\) が平均 \(\mu\) 周りの2次モーメント \((x-\mu)^2\) の場合です。
もう少しわかりやすく説明すると、分散は、確率変数の取る値が期待値(=平均値) \(\mu\) の周りでどの程度ばらつくかを表します。(ちなみに、\(\mu=E[x]\)です。)
分散が小さいほど、確率変数の値は期待値(=平均値)の周辺に集まることを意味します。離散型、連続型確率変数の分散は、次の式で表されます。
& Var[x] = E[(x-\mu)^2] = \sum_{k=1}^N (x_k-\mu)^2 p(x_k) \\
& Var[x] = E[(x-\mu)^2] = \int_{-\infty}^{\infty} (x-\mu)^2 p(x) dx
\end{align}
また、分散に対して平方根をとった値を標準偏差 (Standard Deviation) と呼びます。
分散が \(\sigma^2\) のとき、標準偏差は \(\sigma\) です。分散は、元のデータ(と期待値の差)を2乗しているため、単位が元のデータと異なります。
分散の平方根を取れば、ばらつきの指標が本来のデータの単位と同じになるため、直感的にわかりやすくなります。
期待値の基本的な性質
期待値を計算するときは、いつかの性質を知っておくと便利です。
ただし、\(k\) は定数です。
では、上の3つの性質を証明していきます。以下では、連続型確率分布として証明していますが、離散型確率分布でも成り立ちます。
\(1. \ E[k] = k\) の証明
期待値の式に当てはめて計算すると、次のようになります。
E[k] = \int_{-\infty}^{\infty} kp(x) dx = k \int_{-\infty}^{\infty} p(x) dx = k
\end{align}
\(\int_{-\infty}^{\infty} p(x) dx\) は確率分布の全区間での積分のため、1になります。
\(2. \ E[kf(x)] = kE[f(x)]\) の証明
期待値の式に当てはめて計算すると、次のようになります。
E[kf(x)] = \int_{-\infty}^{\infty} kf(x)p(x) dx = k \int_{-\infty}^{\infty} f(x)p(x) dx = kE[f(x)]
\end{align}
\(3. \ E[f(x)+g(x)] = E[f(x)]+E[g(x)]\) の証明
期待値の式に当てはめて計算すると、次のようになります。
E[f(x)+g(x)] = \int_{-\infty}^{\infty} (f(x)+g(x)) dx = \int_{-\infty}^{\infty} f(x) dx + \int_{-\infty}^{\infty} g(x) dx = E[f(x)] + E[g(x)]
\end{align}
ちなみに、積の場合は、\(x\) と \(y\) が独立の場合に限り、それぞれの期待値の積で求められます。
E[f(x)g(y)] = E[f(x)]E[g(y)]
\end{align}
最後に
今回は、「期待値と分散」について説明しました。最初は戸惑うかもしれませんが、繰り返し計算して慣れていきましょう。
コメント