データの中心を表す1つの値でサンプルを表すのに、平均を使います。多くの統計分析では、平均がデータ分布の中央の標準測度として使用されます。
中央値もまた、データ分布の中央の測度を指します。中央値は平均に比べて外れ値の影響を受けにくくなっています。データ値の半分は中央値より大きく、半分は中央値未満です。
信頼区間は、母集団パラメータの値が含まれる可能性が高い範囲です。たとえば、95%の信頼水準は、母集団から100個のサンプルをランダムに採取した場合、そのうちおよそ95個からは母集団パラメータを含む区間が得られると期待することができます。
ヒストグラムと箱ひげ図を使用して、データの形状と広がりを評価し、外れ値の可能性を識別します。
データが歪んでいる場合、大半のデータがグラフの上側または下側に表示されます。多くの場合、ヒストグラムまたは箱ひげ図で最も簡単に歪度を検出できます。
他のデータ値から遠く離れている外れ値は、分析結果に大きく影響する可能性があります。多くの場合、箱ひげ図で最も簡単に外れ値を識別できます。
外れ値の原因を特定する必要があります。データ入力や測定の誤差を修正します。異常な1回きりの事象(特別原因)のデータ値は除外することを検討します。その後で、分析を繰り返します。詳細は、外れ値の識別を参照してください。
多峰性データには複数の頂点があり、最頻値とも呼ばれます。多くの場合、多峰性データは重要な変数がまだ説明されていないことを意味します。
観測値をグループに分類できる追加情報がある場合は、その情報でグループ変数を作成できます。その後そのグループでグラフを作成し、グループ変数でデータの頂点が説明されるかどうかを判断できます。