記述統計グラフ要約の主要な結果を解釈する

記述統計グラフ要約を解釈するには、次の手順を実行します。主要な結果には、p値、平均、中央値、信頼区間、および複数のグラフが含まれます。

ステップ1: データの中心を記述する

データの中心を表す1つの値でサンプルを表すのに、平均を使います。多くの統計分析では、平均がデータ分布の中央の標準測度として使用されます。

中央値もまた、データ分布の中央の測度を指します。中央値は平均に比べて外れ値の影響を受けにくくなっています。データ値の半分は中央値より大きく、半分は中央値未満です。

中央値と平均はともに中心化傾向の測度となります。しかし、外れ値と呼ばれる異常な値は、平均に対してよりも小さいですが、中央値に対して影響する可能性があります。データが左右対称である場合、平均と中央値は似ています。
対称
非対称

対称分布の場合、平均値(青い線)と中央値(オレンジ色の線)は非常によく似ているため、両方の線を簡単に確認することはできません。ただし、非対称分布は右側に歪んでいます。

主要な結果: 平均と中央値

この結果で、歯磨き粉のキャップを外すのに必要な平均トルクは21.265、トルクの中央値は20です。このデータは右に歪んでいるように見えます。そのため、平均が中央値よりも高くなっています。

ステップ2: 平均、中央値、標準偏差の信頼区間を判断する

信頼区間は、母集団パラメータの値が含まれる可能性が高い範囲です。たとえば、95%の信頼水準は、母集団から100個のサンプルをランダムに採取した場合、そのうちおよそ95個からは母集団パラメータを含む区間が得られると期待することができます。

主要な結果: 平均の信頼区間、中央値の信頼区間、標準偏差の信頼区間

これらの結果において、信頼区間は、次の項目について95%の信頼度で信頼できることを示しています。
  • トルク測定値の母平均は、19.710から22.819の範囲になります。
  • トルク測定値の母集団中央値は、17から21.521の範囲になります。
  • トルク測定値の母集団標準偏差は、5.495から7.729の範囲になります。

ステップ3: データ分布の形状と広がりを評価する

ヒストグラムと箱ひげ図を使用して、データの形状と広がりを評価し、外れ値の可能性を識別します。

データの広がりを調べて、データが歪んで見えるかどうかを判断する

データが歪んでいる場合、大半のデータがグラフの上側または下側に表示されます。多くの場合、ヒストグラムまたは箱ひげ図で最も簡単に歪度を検出できます。

右方向の歪み
左方向の歪み

データが右方向に歪んだヒストグラムは、待ち時間を示しています。ほとんどの待ち時間は比較的短く、いくつかの待ち時間のみが長くなっています。データが左方向に歪んだヒストグラムは、故障時間データを示しています。一部の項目はすぐに故障していますが、多くの項目は故障するまでに長い時間がかかっています。

外れ値を識別する

他のデータ値から遠く離れている外れ値は、分析結果に大きく影響する可能性があります。多くの場合、箱ひげ図で最も簡単に外れ値を識別できます。

箱ひげ図では、アスタリスク(*)で外れ値が示されます。

外れ値の原因を特定する必要があります。データ入力や測定の誤差を修正します。異常な1回きりの事象(特別原因)のデータ値は除外することを検討します。その後で、分析を繰り返します。詳細は、外れ値の識別を参照してください。

マルチモーダルデータを探す

多峰性データには複数の頂点があり、最頻値とも呼ばれます。多くの場合、多峰性データは重要な変数がまだ説明されていないことを意味します。

観測値をグループに分類できる追加情報がある場合は、その情報でグループ変数を作成できます。その後そのグループでグラフを作成し、グループ変数でデータの頂点が説明されるかどうかを判断できます。

単純
グループ

たとえば、銀行のマネージャが待ち時間データを収集し、単純ヒストグラムを作成しているとします。そのヒストグラムには2つの頂点があります。さらに調べると、小切手を換金する顧客の待ち時間は住宅担保ローンを申し込む顧客の待ち時間よりも短いことがわかりました。マネージャは顧客業務用のグループ変数を追加し、グループによるヒストグラムを作成します。