ヒストグラムの主要な結果を解釈する

ヒストグラムを解釈するには、次の手順を実行します。

ステップ1:主要特性を評価

分布のピークおよび広がりを調べます。サンプルサイズがヒストグラムの表示にどう影響するかを評価します。

ピークと広がり

最も高い棒のクラスタであるピークを識別します。ピークは最も一般的な値を示しています。データがどれだけ異なるかを理解するためにサンプルの広がりを評価します。

たとえば、この顧客の待ち時間のヒストグラムでは、データのピークが約6分のところで起こります。データの広がりは約2分から12分です。

ヒストグラムの驚くべき特性または望ましくない特性を調査します。たとえば、顧客の待ち時間のヒストグラムでは、広がりが予想以上に広くなっています。調査によって、コンピュータのソフトウェアのアップデートが、顧客の待ち時間の遅れを引き起こしたことがわかりました。

サンプルサイズ(n)

サンプルサイズはグラフの表示に作用する可能性があります。

たとえば、これらのヒストグラムはかなり異なっているように見えますが、どちらも同じ母集団から無作為に選ばれたデータのサンプルを使用して作成されています。
n = 20
n = 100

ヒストグラムは、サンプルサイズが少なくとも20の場合に最適です。サンプルサイズが小さすぎると、ヒストグラム上の各バーに十分なデータ点が含まれず、データの分布を正確に示せないことがあります。サンプルが大きいほど、ヒストグラムは母分布の形に似てきます。サンプルサイズが20未満の場合は、代わりに個別値プロットの使用を検討してください。

ステップ2:非正規なまたは異常なデータの指標を探す

歪んだデータとマルチモーダルデータは、データが正しくない可能性を示します。外れ値は、データの他の条件を示していることがあります。

歪んだデータ

データが歪んでいる場合、ほとんどのデータがグラフの上下に位置していることになります。歪みはデータが正規に分布されていない可能性を示唆しています。

これらのヒストグラムは、歪んだデータを示しています。右に歪んだデータによるヒストグラムには、待ち時間が表示されます。待ち時間のほとんどは比較的短く、ごく少数の待ち時間だけが長くなります。左に歪んだデータによるヒストグラムには、故障時間が表示されます。少数の項目が直ちに故障し、より多くの項目が後で故障します。

右方向の歪み
左方向の歪み

データの歪みが不自然だと思ったら、可能な原因を調査します。歪みのひどいデータを分析する場合は、分析のデータに関する考慮事項のトピックを読んで、正常でないデータを使おうとしているのかを確認します。

外れ値

外れ値は、他の大部分のデータから離れているデータ値のことで、分析の結果に大きな影響を及ぼします。多くの場合、外れ値は、箱ひげ図で容易に識別できます。

ヒストグラムは、端部の孤立したバーによって外れ値が示されます。

外れ値がある場合は、その原因を特定してください。データ入力や測定の誤差はすべて修正します。異常な1回だけの事象(特殊原因)に関連付けられたデータ値を除外することを検討してください。それから、分析を繰り返します。

マルチモーダルデータ

マルチモーダルデータには、1つ以上のピークがあります(ピークはデータセットのモードを示します)。マルチモーダルデータは、一般的に、データが1つ以上のプロセスまたは複数の温度などの条件から収集される場合に、発生します。

たとえば、これらのヒストグラムは、同じデータのグラフです。単純ヒストグラムには2つのピークがありますが、ピークが何を意味しているかは不明です。グループを使用したヒストグラムは、ピークが2つのグループに対応することを示しています。

単純
グループ

観測値をグループ分けできる追加的な情報がある場合は、その情報を加えたグループ化変数を作成できます。次に、グループのあるグラフを作成し、グループ変数がデータのピークを説明しているかを判断できます。

ヒント

既存のグラフにグループ変数を追加するには、グラフ内のデータ表現をダブルクリックし、次にグループタブをクリックします。

ステップ3:分布の適合度を評価

ヒストグラムに適合分布線がある場合は、バーの高さがどれほど密接に線の形状に従っているかを評価します。バーが適合分布線と密接になっている場合は、データが分布によく適合しています。

異なる分布とパラメータの指定方法については、適合分布線を参照します。

よくあてはまる
よくあてはまらない

より正確な分布適合度の測定には確率プロットを使用し、統計的有意性の適合値を確認します。

ステップ4:グループの評価と比較

ヒストグラムにグループがある場合は、グループの中央と広がりを評価し、比較します。

中央

グループの中央間の差を探します。

たとえば、これらのヒストグラムが、3つのクレジットカードの申し込み方法の完了時間を示しているとします。クレジットカードの申し込みの各方法の中央は、異なる場所に位置しています。場所の違いは、平均完了時間が異なることを示します。
重ね合わせヒストグラム
パネル表示されたヒストグラム
平均間の差が統計的に有意かどうかを判断するには、次のいずれかを実行します。

広がり

グループの広がりの間の差を探します。

たとえば、これらのヒストグラムが、3台の機械で詰められた瓶の重さを示しているとします。ヒストグラムの中央はほぼ同じですが、いくつかのヒストグラムはより大きく、広がりもあります。大きな広がりは、これらの機械の瓶詰めがあまり一定していないことを示します。
重ね合わせヒストグラム
パネル表示されたヒストグラム
広がり(分散)の間の差が統計的に有意かどうかを判断するには、次のいずれかを実行します。