記述統計グラフ要約のすべての統計量およびグラフを解釈する

記述統計グラフ要約で使用されるすべての統計量の定義と解釈について解説します。

A平方

Anderson-Darlingの適合度統計量(A平方)は、(正規分布に基づいた)適合線と(データ点に基づいた)経験的分布関数の間のエリアを測定します。Anderson-Darling統計量は、分布の裾の方が重みの大きい二乗距離です。

解釈

Minitabは、Anderson-Darling統計量を使用してp値を計算します。p値は帰無仮説を棄却するための証拠を測定する確率です。p値が小さいほど、帰無仮説を棄却するための強力な証拠となります。Anderson-Darling統計量の値が小さい場合、データが正規分布により近いことを示します。

p値

p値は帰無仮説を棄却するための証拠を測定する確率です。p値が小さいほど、帰無仮説を棄却するための強力な証拠となります。

解釈

p値を使用して、データが正規分布に従わないかどうかを判断します。

データが正規分布に従わないかどうかを判断するには、p値を有意水準と比較します。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。有意水準が0.05の場合は、データが確かに正規分布に従うときに、そのデータは正規分布に従わないと結論付けるリスクが5%あることを示します。
p値 ≤ α: データは正規分布に従いません(H0を棄却する)
p値が有意水準以下の場合は、帰無仮説を棄却する決定を下し、データは正規分布に従わないと結論付けます。
p値 > α: データは正規分布に従わないと結論付けることはできません(H0を棄却しない)
p値が有意水準よりも大きい場合は、帰無仮説を棄却しない決定を下します。データは正規分布に従わないと結論付けるだけの十分な証拠はありません。

平均

平均値は、データの平均であり、すべての観測値の和を観測値の数で割って求められる値です。

たとえば、銀行での5人の顧客の待ち時間が3、2、4、1、2(分)であったとします。この場合、平均待ち時間は次のようにして計算されます。
顧客は、銀行のサービスを受けるために、平均で2.4分間待っていることになります。

解釈

データの中心を表す1つの値でサンプルを表すのに、平均を使います。多くの統計分析では、平均がデータ分布の中央の標準測度として使用されます。

中央値と平均はともに中心化傾向の測度となります。しかし、外れ値と呼ばれる異常な値は、平均に対してよりも小さいですが、中央値に対して影響する可能性があります。データが左右対称である場合、平均と中央値は似ています。
対称
非対称

対称分布の場合、平均値(青い線)と中央値(オレンジ色の線)は非常によく似ているため、両方の線を簡単に確認することはできません。ただし、非対称分布は右側に歪んでいます。

標準偏差

標準偏差とは、散布度、つまり平均を中心としたデータの広がり方を表す最も一般的な測度です。記号σ(シグマ)は、母集団の標準偏差を示す場合によく使用されますが、sはサンプルの標準偏差を示す場合にも使用されます。多くの場合、工程に対してランダム(自然)な変動は雑音と呼ばれます。

標準偏差の単位はデータの単位と同じであるため、通常は、分散よりも解釈が簡単です。

解釈

標準偏差を使用して、平均からのデータの拡散程度を判断します。 標準偏差の値が高いほど、データの広がりが大きいことを示します。 正規分布の経験則によれば、値のおよそ68%が平均の1つの標準偏差の範囲内にあり、値の95%が2つの標準偏差の範囲内にあり、値の99.7%が3つの標準偏差の範囲内にあります。

標準偏差を使用して、工程の全体的な変動を推定するためのベンチマークを設定することもできます。
病院1
病院2
退院時間

管理者が、2つの病院の救急部門で処置を受けた患者の退院時間を追跡するとします。平均退院時間はほぼ同じ(35分)ですが、標準偏差には有意差があります。病院1の標準偏差はおよそ6です。平均すると、患者の退院時間は平均(点線)から約6分離れています。病院2の標準偏差はおよそ20です。平均すると、患者の退院時間は平均(点線)から約20分離れることになります。

分散

分散は、平均を中心としたデータの広がりを測定します。分散は標準偏差の二乗に等しくなります。

解釈

分散が大きいほど、データの広がりも大きくなります。

分散(σ2)は二乗した数量であるため、その単位も二乗されることになり、分散を実際に使用することは困難です。標準偏差は、データと同じ単位を使用するため、通常は解釈が簡単です。たとえば、バスの停留所での待ち時間のサンプルは、平均が15分で分散は9分2であるとします。分散は、データと同じ単位ではないため、多くの場合に平方根つまり標準偏差と一緒に表示されます。分散の9分2は、標準偏差の3分に相当します。

歪度

歪度とは、データの非対称性を示す度合いです。

解釈

データについてまず理解するには、歪度が役に立ちます。
図A
図B
対称的な(歪みのない)分布

データが対称的になるほど、歪度の値は0に近づきます。図Aは、定義上、正規分布データは比較的小さい歪度を示すことを表しています。ここに示した正規分布データのヒストグラムの中央に直線を引くと、鏡に映したように両側が同じ形であることが簡単に分かります。ただし、歪みがないことだけで正規性を意味するわけではありません。図Bは、両側がやはり鏡に映したような形になっていますが、データは正規分布とは大きく異なる分布であることを表しています。

正に(右に)歪んでいる分布

正に歪んでいるデータ、または右に歪んでいるデータと呼ばれる理由は、分布の「裾」が右側に向かっており、歪度の値が0よりも大きくなる(正になる)からです。多くの場合、給与データはこのように歪みます。企業内の従業員の多くは給与が比較的低く、一方で、ごく少数の人たちの給与が非常に高いためです。

負に(左に)歪んでいる分布

左に歪んでいる、または負に歪んでいるデータと呼ばれる理由は、分布の「裾」が左側に向かっており、歪度の値が負になるからです。故障率のデータの多くは、左側に歪みます。電球を考えてみてください。すぐに焼き切れてしまう電球はごく少数で、大多数は非常に長持ちします。

尖度

尖度は、分布の裾の正規分布からの逸脱の程度を示します。

解釈

尖度を使用して、まずデータの分布の全般的な特徴を理解します。
ベースライン:尖度の値が0

正規分布データによって、尖度のベースラインが確立されます。尖度の値が0の場合、データが完全に正規分布に従っていることを示します。0から大きく離れた尖度の値は、データが正規分布になっていないことを示す場合があります。

尖度の値が正

尖度の値が正の分布は、その分布に正規分布と比べて重い裾と鋭いピークがあることを示します。たとえば、t分布に従うデータの尖度は正の値になります。実線は正規分布を示し、点線は尖度の値が正の分布を示しています。

尖度の値が負

尖度の値が負の分布は、その分布に正規分布と比べて軽い裾があることを示します。たとえば、最初の形状パラメータと2番目の形状パラメータが2であるベータ分布に従うデータの尖度は負の値になります。実線は正規分布を示し、点線は尖度の値が負の分布を示しています。

N

サンプルにおける非欠損値の数。

この例では、141個の観測値が記録されています。
合計数 N N*
149 141 8

最小値

最小値とは、最小のデータ値を指します。

このデータで、最小値は7です。

13 17 18 19 12 10 7 9 14

解釈

最小値を使用して、外れ値の可能性がある値またはデータ入力ミスを識別します。データの広がりを最も簡単に評価する方法の1つは、最小値と最大値を比較することです。データの中心、広がり、形状を検討する場合であっても、最小値が非常に小さい場合、極端な値の原因を調査してください。

第1四分位数

四分位数とは、並べられたデータのサンプルを4つの等しい部分に分ける、25%の第1四分位数(Q1)、50%の第2四分位数(Q2または中間値)、75%の第3四分位数(Q3)の3つの値です。

第1四分位数は第25百分位数であり、データの25%がこの値以下であることを示します。

この順序付きのデータで、第1四分位数(Q1)は9.5です。つまり、データの25%が9.5以下になります。

中央値

中央値はデータセットの中間点です。この中間点の値は、観測値の半分がその値より上にあり、観測値の半分がその値より下にあるという点です。中央値は、観測値に順位付けし、順位付けされた順序での順位が[N + 1] / 2の観測値を検出することによって算定されます。観測値の数が偶数の場合、その中央値は、N / 2と[N / 2] + 1の順位で順位付けされる観測値の平均値です。

この順序付けされたデータの場合、中央値は13です。つまり、半数の値が13以下で、半数の値が13以上になっています。20に等しい観測値を追加すると、中央値は5番目の観測値(13)と6番目の観測値(14)の平均である13.5になります。

解釈

中央値と平均はともに中心化傾向の測度となります。しかし、外れ値と呼ばれる異常な値は、平均に対してよりも小さいですが、中央値に対して影響する可能性があります。データが左右対称である場合、平均と中央値は似ています。
対称
非対称

対称分布の場合、平均値(青い線)と中央値(オレンジ色の線)は非常によく似ているため、両方の線を簡単に確認することはできません。ただし、非対称分布は右側に歪んでいます。

第3四分位数

四分位数とは、並べられたデータのサンプルを4つの等しい部分に分ける、25%の第1四分位数(Q1)、50%の第2四分位数(Q2または中間値)、75%の第3四分位数(Q3)の3つの値です。

第3四分位数は第75百分位数であり、データの75%がこの値以下であることを示します。

この順序付きのデータで、第3四分位数(Q3)は17.5です。つまり、データの75%が17.5以下になります。

最大値

最大値とは、最大のデータ値を指します。

このデータで、最大値は19です。

13 17 18 19 12 10 7 9 14

解釈

最大値を使用して、外れ値の可能性がある値またはデータ入力ミスを識別します。データの広がりを最も簡単に評価する方法の1つは、最小値と最大値を比較することです。データの中心、広がり、形状を検討する場合であっても、最大値が非常に大きい場合、極端な値の原因を調査してください。

信頼区間

信頼区間は、母集団パラメータの値が含まれる可能性が高い範囲です。データのサンプルはランダムであるため、2つの母集団サンプルの信頼区間が同一である可能性は低くなります。しかし、サンプルを何度も繰り返して測定すると、得られた信頼区間または限界値の特定の割合に未知の母集団パラメータが含まれることになります。このようなパラメータを含む信頼区間や限界値の割合(%)を区間の信頼水準と言います。たとえば、95%の信頼水準は、母集団から100個のサンプルをランダムに採取した場合、そのうちおよそ95個からは母集団パラメータを含む区間が得られると期待することができます。

上限は、母集団パラメータがそれより小さくなる可能性が高い値です。下限は、母集団パラメータがそれより大きくなる可能性が高い値です。

信頼区間により、結果の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて役に立たない場合、サンプルのサイズを増加させることを検討します。 詳細は、信頼区間の精度を高める方法を参照してください。

これらの結果において、信頼区間は、次の項目について95%の信頼度で信頼できることを示しています。
  • トルク測定値の母平均は、19.710から22.819の範囲になります。
  • トルク測定値の母集団中央値は、17から21.521の範囲になります。
  • トルク測定値の母集団標準偏差は、5.495から7.729の範囲になります。

ヒストグラム

ヒストグラムは、サンプル値を多数の区間に分割し、各区間内のデータ値の度数をバーで表します。

解釈

ヒストグラムを使用してデータの形状と広がりを評価します。 ヒストグラムは、サンプルサイズが20より大きい場合に最適です。

歪んだデータ

正規分布曲線を重ねたヒストグラムを使用して、データが正規分布であるかどうかを調査できます。正規分布は、曲線で示されるように、左右対称でつりがね型をしています。多くの場合、サンプルサイズが小さいと正規性評価が難しくなります。確率分布プロットは、分布の適合の判断に最適です。

良好な適合
不適合
外れ値

他のデータ値から遠く離れている外れ値は、分析結果に大きく影響する可能性があります。多くの場合、箱ひげ図で最も簡単に外れ値を識別できます。

ヒストグラムでは、グラフのどちらかの端にある孤立したバーで潜在的な外れ値が示されます。

外れ値の原因を特定する必要があります。データ入力や測定の誤差を修正します。異常な1回きりの事象(特別原因)のデータ値は除外することを検討します。その後で、分析を繰り返します。詳細は、外れ値の識別を参照してください。

マルチモーダルデータ

多峰性データには複数の頂点があり、最頻値とも呼ばれます。多くの場合、多峰性データは重要な変数がまだ説明されていないことを意味します。

単純
グループ

たとえば、銀行のマネージャが待ち時間データを収集し、単純ヒストグラムを作成しているとします。そのヒストグラムには2つの頂点があります。さらに調べると、小切手を換金する顧客の待ち時間は住宅担保ローンを申し込む顧客の待ち時間よりも短いことがわかりました。マネージャは顧客業務用のグループ変数を追加し、グループによるヒストグラムを作成します。

観測値をグループに分類できる追加情報がある場合は、その情報でグループ変数を作成できます。その後そのグループでグラフを作成し、グループ変数でデータの頂点が説明されるかどうかを判断できます。

箱ひげ図

箱ひげ図は、サンプルの分布を視覚的に要約します。データの形状、中心傾向、および変動性が表示されます。

解釈

箱ひげ図を使用して、データの広がりを調べ、潜在的な外れ値を識別します。 箱ひげ図は、サンプルサイズが20より大きい場合に最適です。

歪んだデータ

データの広がりを調べて、データが歪んでいるかどうかを判断します。データが歪んでいる場合、大半のデータがグラフの上側または下側に表示されます。多くの場合、ヒストグラムまたは箱ひげ図で最も簡単に歪度を検出できます。

右方向の歪み
左方向の歪み

データが右方向に歪んだ箱ひげ図は、待ち時間を示しています。ほとんどの待ち時間は比較的短く、いくつかの待ち時間のみが長くなっています。データが左方向に歪んだ箱ひげ図は、故障時間データを示しています。一部の項目はすぐに故障していますが、多くの項目は故障するまでに長い時間がかかっています。

外れ値

他のデータ値から遠く離れている外れ値は、分析結果に大きく影響する可能性があります。多くの場合、箱ひげ図で最も簡単に外れ値を識別できます。

箱ひげ図では、アスタリスク(*)で外れ値が示されます。

外れ値の原因を特定する必要があります。データ入力や測定の誤差を修正します。異常な1回きりの事象(特別原因)のデータ値は除外することを検討します。その後で、分析を繰り返します。詳細は、外れ値の識別を参照してください。