変動係数

2017年7月14日

基本統計量の最後に、変動係数をやりましょう。

テキストには標準偏差を平均値で除したものとしか載っていませんが、これ以前おいちゃんが統計の復習したときには正規化って言ってたやつです。

標準偏差の課題

前回の標準偏差において、平均値が同じときのばらつき比較をするといいましたが、平均値が同じなら標準偏差を使わなくても範囲Rでわかっちゃうわけですよ。平均値が全く違うデータ同士のばらつき比較をどうやるか?

以下ふたつのデータ、どちらがばらつきが大きいでしょうか?

\begin{eqnarray}
\{A_{n}\}&=&6, 3, 3, 7, 6\\
\{C_{n}\}&=&18, 13, 14, 18, 17
\end{eqnarray}

標準偏差を比べてみます。

\begin{eqnarray}
\sqrt{\frac{\sum{|A_{n}-\bar{A}|^2}}{n-1}}&=&1.870\\
\sqrt{\frac{\sum{|C_{n}-\bar{C}|^2}}{n-1}}&=&2.345
\end{eqnarray}

Cのほうが標準偏差は大きいですね。でもデータそのものが大きいから尺度を合わせてみないとよくわかりません。定義どおり平均値で割ってみましょう。

\begin{eqnarray}
\frac{\sqrt{\frac{\sum{|A_{n}-\bar{A}|^2}}{n-1}}}{\bar{A}}&=&0.374\\
\frac{\sqrt{\frac{\sum{|C_{n}-\bar{C}|^2}}{n-1}}}{\bar{C}}&=&0.146
\end{eqnarray}

逆転しました。

何をしているか?

標準偏差を平均値で割ることで平均値が1になるようにデータを変換し、相対比較ができるようにしています。つまり偏差を平均値から外れている割合に変換したことになります。ではそれぞれの偏差を平均値で割ってみましょう。

\begin{eqnarray}
\{\frac{A_{n}-\bar{A}}{\bar{A}}\}&=&+0.2, -0.4, -0.4, +0.4, +0.2\\
\{\frac{C_{n}-\bar{C}}{\bar{C}}\}&=&+0.125, -0.187, -0.125, +0.125, +0.0625
\end{eqnarray}

やはり偏差の割合はAのほうが大きいですね。と、このように尺度を合わせることで単純比較が容易くなります。というのが正規化というか変動係数です。

これらを使って標準偏差を計算すれば、当然上記変動係数の値を得ることができます。