箱ひげ図の主要な結果を解釈する

箱ひげ図を解釈するには、次の手順を実行します。

ステップ1:主要な特性を評価する

分布の中央および広がりを調べます。サンプルサイズが箱ひげ図の表示にどう影響するかを評価します。

中央と広がり

次の要素を調べて、サンプルデータの中央値と広がりについて深く探ります。
中央値
中央値は、範囲内で線表示されます。中央値は一般的にデータの中心の測定です。観測値の半分は中央値以下であり、半分は中央値以上になります。
四分位間範囲
四分位間範囲はデータの中央50%を表します。1番目と3番目の四分位(Q3-Q1)の距離を示します。
ひげ
ひげは範囲内のいずれかの側から伸びます。ひげは、外れ値を除き、データ値の下位25%と上位25%の範囲を示します。

ポインタを箱ひげ図に乗せると、これらの統計量を示すツールチップが表示されます。たとえば、この箱ひげ図の安静時の心拍数の中央値は71です。ほとんどの対象では、安静時の心拍数は64~80ですが、低い時は48、高い時は100になるものもあります。

箱ひげ図の通常ではない特性または望ましくない特性を調査します。たとえば、箱ひげ図は、木板の長さの中央値が目標の8フィートよりもはるかに低い値を取ることがあります。

箱ひげ図の四分位間範囲は計算された値であるため、データセットの実観測値ではないかもしれません。四分位間範囲の解釈の仕方に関する詳細は、四分位数とはを参照します。四分位間範囲の計算方法の詳細は、グラフィカルサマリの方法と計算式を参照してください。

サンプルサイズ(n)

サンプルサイズはグラフの表示に作用する可能性があります。

たとえば、これらの箱ひげ図はかなり異なっているように見えますが、どちらも同じ母集団から無作為に選ばれたデータのサンプルを使用して作成されています。
n = 15
n = 500

箱ひげ図は、サンプルサイズが少なくとも20の場合に最適です。サンプルサイズが小さすぎると、箱ひげ図に示される四分位数や外れ値は意味がない場合があります。サンプルサイズが20未満の場合は、代わりに個別値プロットの使用を検討してください。

ステップ2:非正規または異常なデータの指標を探す

歪んだデータは、データが正しくない可能性を示します。外れ値は、データの他の条件を示していることがあります。

歪んだデータ

データが歪んでいる場合、ほとんどのデータがグラフの上下に位置していることになります。歪みはデータが正規に分布されていない可能性を示唆しています。

これらの箱ひげ図は、歪んだデータを示しています。右に歪んだデータによる箱ひげ図には、待ち時間が表示されます。待ち時間のほとんどは比較的短く、ごく少数の待ち時間だけが長くなります。左に歪んだデータによる箱ひげ図には、故障時間が表示されます。少数の項目が直ちに故障し、より多くの項目が後で故障します。

右方向の歪み
左方向の歪み

データの歪みが不自然だと思ったら、可能な原因を調査します。歪みのひどいデータを分析する場合は、分析のデータに関する考慮事項のトピックを読んで、正常でないデータを使おうとしているのかを確認します。

外れ値

外れ値は、他の大部分のデータから離れているデータ値のことで、分析の結果に大きな影響を及ぼします。多くの場合、外れ値は、箱ひげ図で容易に識別できます。

箱ひげ図では、アスタリスク(*)によって外れ値が識別されます。
ヒント

外れ値の上にポインタを合わせて、データ点を識別します。

外れ値がある場合は、その原因を特定してください。データ入力や測定の誤差はすべて修正します。異常な1回だけの事象(特殊原因)に関連付けられたデータ値を除外することを検討してください。それから、分析を繰り返します。

ステップ3:グループの評価と比較

箱ひげ図にグループがある場合は、グループの中央と広がりを評価し、比較します。

中央

グループの中央間の差を探します。

たとえば、この箱ひげ図では、4つのメーカーが生産したワイヤの厚みを示しています。いくつかのグループの厚みの中央値は異なるように見えます。

広がり

グループの広がりの間の差を探します。

たとえば、この箱ひげ図では、4つの生産ラインでのシリアル箱の充填重量を示しています。シリアル箱のグループの重量の中央値は似通っていますが、いくつかのグループの重量は他のグループよりもばらつきが大きくなっています。
広がり(分散)の間の差が統計的に有意かどうかを判断するには、次のいずれかを実行します。