統計解析の基本「平均・分散・標準化」について簡単に紹介

科学・テクノロジー

画像処理などのプログラムを開発していると、統計解析の基本である「平均・分散・標準化」の式がよく出てきます。

そこで今回は、復習の意味も兼ねて「平均・分散・標準化」を中心に、統計解析の基本について簡単に紹介していきます。

スポンサーリンク

代表値とは?

たとえば、画像解析をするときに、その画像をあらわす代表的な値から処理内容を決めたいことがありますよね。

このときの代表的な値を「代表値」といい、「平均値」「中央値」「最頻値」などが用いられます。

それぞれ簡単に説明していきます。

平均値とは?

平均値とは、個々のデータの総和をデータ数で割ったものです。

たとえば、4人の視力を「1.2, 0.7, 1.0, 1.5」とした場合、視力の平均値は次のように求められます。

$$視力の平均値=\frac{1.2+0.7+1.0+1.5}{4}=1.1$$

これを一般化すると、平均値\(\overline{x}\)は、

$$\overline{x}=\frac{x_1+x_2+x_3+\cdots+x_n}{n}=\frac{1}{n}\sum_{i=1}^{n} x_i$$

となります。

中央値とは?

中央値とは、データを大きさの順に並べたときに、ちょうど中央に位置する値のことです。メジアンともいいます。

データ数が偶数の場合は、中央にあたる2つのデータの平均をとって中央値とします。

たとえば、5人の貯蓄額が「200万円, 400万円, 600万円, 800万円, 8000万円」の場合、中央値は600万円になります。

平均値を求めると2000万円になるので、中央値の方が良い代表値になってそうですね。

最頻値とは?

最頻値とは、データの中で最もあらわれる頻度が高い値のことです。

たとえば、土地の販売価格が「2800万円@10件, 3000万円@15件, 3200万円@15件, 3400万円@20件, 3600万円@40件」の場合、3600万円が最頻値になります。

平均値3300万円、中央値3400万円に比べて最適な代表値になってそうですね。

スポンサーリンク

分散と標準偏差とは?

ここまで3つの代表値について紹介してきましたが、どれを代表値に選ぶかで結果は大きく変わります。

そこで、データの散らばり度合いを表す「分散」と「標準偏差」が必要になります。

偏差とは?

偏差とは、データから平均値を引いた値です。つまり、平均値からのズレを表す値です。

$$偏差=x_i-\overline{x}$$

変動とは?

データ全体の偏差を足し合わせたものを変動、または偏差平方和と言います。

ただし、単純に足し合わせると、プラスとマイナスが打ち消しあうので、各々を2乗にして加えます。

$$変動Q=(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2$$

分散とは?

変動\(Q\)はデータ数が大きいほど値も大きくなってしまいます。

そこで、データ数\(n\)で割ってこの欠点を回避します。これを分散と言います。

$$分散s^2=\frac{(x_1-\overline{x})^2+(x_2-\overline{x})^2+\cdots+(x_n-\overline{x})^2}{n}=\frac{1}{n}\sum_{i=1}^{n} (x_i-\overline{x})^2$$

標準偏差とは?

分散\(s^2\)は2乗されていることからもわかりますが、単位が変わってしまいます。

たとえば、身長のデータを扱っている場合、その面積を求めることになるので、このままでは扱えません。

そこで、分散の平方根をとることで単位をあわせます。これを標準偏差といいます。

$$標準偏差s=\sqrt{s^2}=\sqrt{\frac{1}{n}\sum_{i=1}^{n} (x_i-\overline{x})^2}$$

スポンサーリンク

標準化とは?

ここまでデータの散らばり度合いを表す「分散」と「標準偏差」について紹介してきましたが、これらを求めても、あるデータが全データのどのくらいの位置にあるのか一目ではわかりませんよね。

また、単位やスケールが異なる複数のデータ同士を比較することもできません。

そこで、平均を\(0\)に、分散を\(1\)にする「標準化」を行います。

$$標準化z_i=\frac{x_i-\overline{x}}{s}$$

標準化をすることで、次の3つが一目でわかるようになります。

  1. \(z\)の平均は\(0\)、分散は\(1\)
  2. \(z\)が正なら平均値よりも大きく、負ならば小さい
  3. \(z\)の値が1より大きければ、標準より大きく離れている

データを解析するのに役立つのでぜひ覚えておきましょう。

標準化すると平均が\(0\)になる証明

では、ここで標準化をすると平均が\(0\)になることを数学的に証明しておきます。

\begin{align*}
\overline{z} & = \frac{1}{n}\sum_{i=1}^{n} z_i \\
  & = \frac{1}{n}\sum_{i=1}^{n}\frac{x_i-\overline{x}}{s} \\
  & = \frac{1}{s}\cdot\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x}) \\
  & = \frac{1}{s}\cdot\frac{1}{n}\left(\sum_{i=1}^{n} x_i- \sum_{i=1}^{n} \overline{x}\right) \\
  & = \frac{1}{s}\left(\frac{1}{n}\sum_{i=1}^{n} x_i – \frac{1}{n}\cdot n\overline{x}\right) \\
  & = \frac{1}{s}(\overline{x} – \overline{x}) \\
  & = 0 \\
\end{align*}

標準化すると分散が\(1\)になる証明

引き続き、標準化をすると分散が\(1\)になることを数学的に証明しておきます。

\begin{align*}
s_z^2 & = \frac{1}{n}\sum_{i=1}^{n} (z_i-\overline{z})^2 \\
 & = \frac{1}{n}\sum_{i=1}^{n} (z_i-0)^2 \\
 & = \frac{1}{n}\sum_{i=1}^{n} z_i^2 \\
 & = \frac{1}{n}\sum_{i=1}^{n} \left(\frac{x_i-\overline{x}}{s}\right)^2 \\
 & = \frac{1}{n}\sum_{i=1}^{n} \frac{(x_i-\overline{x})^2}{s^2} \\
 & = \frac{1}{s^2}\cdot\frac{1}{n}\sum_{i=1}^{n} (x_i-\overline{x})^2 \\
 & = \frac{1}{s^2}\cdot s^2 \\
 & = 1 \\
\end{align*}

最後に

今回は、統計解析の基本である「平均・分散・標準化」について紹介してきました。

さまざまな分野で使われている解析手法なので、ぜひ理解しておきましょう。

コメント

タイトルとURLをコピーしました