データの集合は、多くの異なる方法で分布または拡散できます。たとえば、サイコロを転がしたデータは1~6のランダムな整数値になります。製造工程のデータは目標値で中心化されるか、中心値から非常に遠いデータ値になる可能性があります。
データ分布は、グラフ、記述的統計量、または論理的分布との比較を使用して評価できます。
- グラフ
- ヒストグラムなどのグラフでは、データセットの分布に関する質問に瞬時に答えることができます。ヒストグラムは次の観測に役立ちます。
- データが単一値の近辺に集まっているか、それとも複数の頂点または最頻値があるか。
- データが広い領域にまばらに広がっているか、または狭い領域に密集しているか。
- データは歪んでいるか、または対称か。
- 記述統計量
- データの中心傾向(平均、中央値)および広がり(分散、標準偏差)を数値で表した記述統計量を使用して、詳細を追加し、他のデータセットと比較できます。
- 論理的分布
- 一般的な分布のいくつかは、正規分布、ワイブル分布、指数分布のような名前で識別できます。たとえば正規分布は常につりがね型で、平均を中心に左右対称です。
- 実データは、ほとんどの場合これらの完全な分布に近づくことしかできません。データがある分布にうまく適合している場合、データはその分布よって良好にモデル化されていると言えます。データに最適な分布を特定するには、を使用します。