歪度と尖度が分布に及ぼす影響

データについてまず理解するには、歪度と尖度が役に立ちます。

歪度

歪度とは、データの非対称性の度合いを示す度数です。歪度が0、正、負のいずれであるかによって、データの形状に関する情報が明らかになります。
図A
図B
対称な(歪みのない)分布

データが対称的になるほど、歪度の値は0に近づきます。図Aは、定義上、正規分布データは比較的小さい歪度を示すことを表しています。ここに示した正規分布データのヒストグラムの中央に直線を引くと、鏡に映したように両側が同じ形であることが簡単に分かります。ただし、歪みがないことだけで正規性を意味するわけではありません。図Bは、両側がやはり鏡に映したような形になっていますが、データは正規分布とは大きく異なる分布であることを表しています。

正に(右に)歪んでいる分布

正に歪んでいるデータ、または右に歪んでいるデータと呼ばれる理由は、分布の「裾」が右側に向かっており、歪度の値が0よりも大きくなる(正になる)からです。多くの場合、給与データはこのように歪みます。企業内の従業員の多くは給与が比較的低く、一方で、ごく少数の人たちの給与が非常に高いためです。

負に(左に)歪んでいる分布

左に歪んでいる、または負に歪んでいるデータと呼ばれる理由は、分布の「裾」が左側に向かっており、歪度の値が負になるからです。故障率のデータの多くは、左側に歪みます。電球を考えてみてください。すぐに焼き切れてしまう電球はごく少数で、大多数は非常に長持ちします。

尖度

尖度は、分布の裾の正規分布からの逸脱の程度を示します。尖度を使用して、データの分布に関する全般的な特性について最初に理解します。
ベースライン:尖度の値が0

正規分布に完全に従うデータの尖度値は0です。正規分布のデータは尖度のベースラインになります。0から大きく離れたサンプル尖度は、データが正規分布になっていないことを示す場合があります。

尖度の値が正

尖度の値が正の分布は、その分布に正規分布と比べて重い裾があることを示します。たとえば、t分布に従うデータは正の値の尖度を持ちます。実線は正規分布を示し、点線は尖度の値が正の分布を示しています。

尖度の値が負

尖度の値が負の分布は、その分布に正規分布と比べて軽い裾があることを示します。たとえば、最初の形状パラメータと2番目の形状パラメータが2であるベータ分布に従うデータの尖度は負の値になります。実線は正規分布を示し、点線は尖度の値が負の分布を示しています。