幹葉図の主要な結果を解釈する

幹葉図を解釈するには、次の手順を実行します。

ステップ1:主要特性を評価する

分布の中央および広がりを調べます。サンプルサイズが幹葉図の表示にどう影響するかを評価します。

中央と広がり

次の要素を調べて、サンプルデータについて深く探ります。
計数と中央値
計数は左側の最初の列にあります。中央値が含まれる行の計数は括弧で括られています。中央値の上下の行の値は累積されます。中央値の上の行の計数は、その行とそれより上の行すべての計数の総数を示します。中央値の下の行の値は、その行とそれより下の行すべての計数の総数を示します。
データ値

各行では、「幹」の数は(真ん中の列)はサンプル値の1桁目の数字(または複数桁の数字)を表します。プロット上部の「葉単位」は、葉の値がどの小数位を表すかを示します。

広がり
広がりは、データが変動する度合いを示します。

この幹葉図は、オンライン顧客サービスによる販売員とのチャットに対する顧客の待ち時間を示しています。最初の行は幹の値が6で、葉の値が0、2、および3です。葉単位は1です。プロットの最初の行は、約80、82、83のサンプル値を表します。値の範囲は80~119秒です。中央値は、95~99秒の値をもつ行にあります。

C1の幹葉図   N = 50

38023
8856688
2190111111222444
(6)9555799
23100000111233
131055667789
51114
311579
葉単位=1

異常なまたは望ましくない特性を調査します。たとえば、顧客待ち時間の幹葉図により、予想よりも高い値と大きな広がりがあることがわかりました。調査により、Webトラフィックが異常に重いため不安定で遅延が生じていることが明らかになりました。

サンプルサイズ(n)

サンプルサイズはグラフの表示に作用する可能性があります。

サンプルサイズは、幹葉図の上部に表示されます。過去の例では、サンプルサイズは50(N = 50)です。

幹葉図プロットは各データ値を表すものなので、サンプルサイズが約50未満のときに最適になります。サンプルが50より大きい場合、プロットのデータ点が拡散しすぎて、分布は評価が難しくなる可能性があります。データ点が50個を超える場合は、箱ひげ図ヒストグラムの使用を検討してください。

ステップ2:非正規または異常なデータの指標を探す

歪んだデータとマルチモーダルデータは、データが正しくない可能性を示します。外れ値は、データの他の条件を示していることがあります。

歪んだデータ

データが歪んでいるかどうかを判断します。データが歪んでいる場合、ほとんどのデータがグラフの上下に位置していることになります。歪みはデータが正規に分布されていない可能性を示唆しています。ヒストグラム箱ひげ図では歪みを検出するのが最も簡単であるケースが多いです。

これらの幹葉図は歪んだデータを示しています。右方向に歪んだデータは、待ち時間を示します。待ち時間のほとんどは比較的短く、ごく少数の待ち時間だけが長くなります。左方向に歪んだデータは、故障寿命を示します。少数の項目が直ちに故障し、より多くの項目が後で故障します。

C1の幹葉図   N = 50

1-04
6-033222
16-01111111111
(16)00000000011111111
18022222333333
704555
306
20 
21 
212
114
葉単位=0.1

右方向の歪み

C1の幹葉図   N = 52

3-1333
3-1 
5-099
6-06
8-044
24-03333333322222222
(7)-01111111
210000001111111
9022233
40445
106
葉単位=0.1

左方向の歪み

データの歪みが不自然だと思ったら、可能な原因を調査します。歪みのひどいデータを分析する場合は、分析のデータに関する考慮事項のトピックを読んで、正常でないデータを使おうとしているのかを確認します。

外れ値

外れ値は、他の大部分のデータから離れているデータ値のことで、分析の結果に大きな影響を及ぼします。

幹葉図は、両端の孤立した値によって潜在的な外れ値が示されます。たとえば、この図の下部にある最後の値は外れ値の可能性があります。

C1の幹葉図   N = 31

2-220
4-152
(13)-08886555433300
14000334688
610046
225
13 
14 
15 
16 
17 
180
葉単位=0.1

外れ値がある場合は、その原因を特定してください。データ入力の誤差を修正してください。異常な1回だけの事象(特殊原因)に関連付けられたデータ値を除外することを検討してください。それから、分析を繰り返します。

マルチモーダルデータ

マルチモーダルデータには、複数のピークがあります(ピークはデータセットのモードを示します)。マルチモーダルデータは、一般的に、データが複数のプロセスまたは複数の温度などの条件から収集される場合に、発生します。

たとえば、これらの幹葉図は、同じデータのグラフです。単一の幹葉図には2つのクラスターの点がありますが、クラスターが何を意味しているかは不明です。グループを使用した幹葉図は、クラスターが2つのグループに対応することを示しています。

C1の幹葉図   N = 100

2718
58589
2190122235555677889
37100122233334556778
(14)1113334455667789
49122599
45130012334667778888888
2614000011122236777888
8150245779
1161
葉単位=0.1

単純

C1の幹葉図    C2 = 1    N = 50

21159
512259
24130012334667778888888
(18)14000011122236777888
8150245779
1161
葉単位=0.1

C1の幹葉図    C2 = 2    N = 50

2718
58589
2190122235555677889
(16)100122233334556778
1311133344566778
1129
葉単位=0.1

グループ

観測値をグループに分類できるようにする追加情報がある場合は、その情報に基づいてグループ変数を作成できます。それから、グループのグラフを作成し、データのピークがそのグループ変数によって説明されるかどうかを判定できます。