分布の中央および広がりを調べます。サンプルサイズが幹葉図の表示にどう影響するかを評価します。
各行では、「幹」の数は(真ん中の列)はサンプル値の1桁目の数字(または複数桁の数字)を表します。プロット上部の「葉単位」は、葉の値がどの小数位を表すかを示します。
この幹葉図は、オンライン顧客サービスによる販売員とのチャットに対する顧客の待ち時間を示しています。最初の行は幹の値が6で、葉の値が0、2、および3です。葉単位は1です。プロットの最初の行は、約80、82、83のサンプル値を表します。値の範囲は80~119秒です。中央値は、95~99秒の値をもつ行にあります。
3 | 8 | 023 |
---|---|---|
8 | 8 | 56688 |
21 | 9 | 0111111222444 |
(6) | 9 | 555799 |
23 | 10 | 0000111233 |
13 | 10 | 55667789 |
5 | 11 | 14 |
3 | 11 | 579 |
異常なまたは望ましくない特性を調査します。たとえば、顧客待ち時間の幹葉図により、予想よりも高い値と大きな広がりがあることがわかりました。調査により、Webトラフィックが異常に重いため不安定で遅延が生じていることが明らかになりました。
歪んだデータとマルチモーダルデータは、データが正しくない可能性を示します。外れ値は、データの他の条件を示していることがあります。
データが歪んでいるかどうかを判断します。データが歪んでいる場合、ほとんどのデータがグラフの上下に位置していることになります。歪みはデータが正規に分布されていない可能性を示唆しています。ヒストグラムや箱ひげ図では歪みを検出するのが最も簡単であるケースが多いです。
これらの幹葉図は歪んだデータを示しています。右方向に歪んだデータは、待ち時間を示します。待ち時間のほとんどは比較的短く、ごく少数の待ち時間だけが長くなります。左方向に歪んだデータは、故障寿命を示します。少数の項目が直ちに故障し、より多くの項目が後で故障します。
1 | -0 | 4 |
---|---|---|
6 | -0 | 33222 |
16 | -0 | 1111111111 |
(16) | 0 | 0000000011111111 |
18 | 0 | 22222333333 |
7 | 0 | 4555 |
3 | 0 | 6 |
2 | 0 | |
2 | 1 | |
2 | 1 | 2 |
1 | 1 | 4 |
3 | -1 | 333 |
---|---|---|
3 | -1 | |
5 | -0 | 99 |
6 | -0 | 6 |
8 | -0 | 44 |
24 | -0 | 3333333322222222 |
(7) | -0 | 1111111 |
21 | 0 | 000001111111 |
9 | 0 | 22233 |
4 | 0 | 445 |
1 | 0 | 6 |
データの歪みが不自然だと思ったら、可能な原因を調査します。歪みのひどいデータを分析する場合は、分析のデータに関する考慮事項のトピックを読んで、正常でないデータを使おうとしているのかを確認します。
外れ値は、他の大部分のデータから離れているデータ値のことで、分析の結果に大きな影響を及ぼします。
幹葉図は、両端の孤立した値によって潜在的な外れ値が示されます。たとえば、この図の下部にある最後の値は外れ値の可能性があります。
2 | -2 | 20 |
---|---|---|
4 | -1 | 52 |
(13) | -0 | 8886555433300 |
14 | 0 | 00334688 |
6 | 1 | 0046 |
2 | 2 | 5 |
1 | 3 | |
1 | 4 | |
1 | 5 | |
1 | 6 | |
1 | 7 | |
1 | 8 | 0 |
外れ値がある場合は、その原因を特定してください。データ入力の誤差を修正してください。異常な1回だけの事象(特殊原因)に関連付けられたデータ値を除外することを検討してください。それから、分析を繰り返します。
マルチモーダルデータには、複数のピークがあります(ピークはデータセットのモードを示します)。マルチモーダルデータは、一般的に、データが複数のプロセスまたは複数の温度などの条件から収集される場合に、発生します。
たとえば、これらの幹葉図は、同じデータのグラフです。単一の幹葉図には2つのクラスターの点がありますが、クラスターが何を意味しているかは不明です。グループを使用した幹葉図は、クラスターが2つのグループに対応することを示しています。
2 | 7 | 18 |
---|---|---|
5 | 8 | 589 |
21 | 9 | 0122235555677889 |
37 | 10 | 0122233334556778 |
(14) | 11 | 13334455667789 |
49 | 12 | 2599 |
45 | 13 | 0012334667778888888 |
26 | 14 | 000011122236777888 |
8 | 15 | 0245779 |
1 | 16 | 1 |
2 | 11 | 59 |
---|---|---|
5 | 12 | 259 |
24 | 13 | 0012334667778888888 |
(18) | 14 | 000011122236777888 |
8 | 15 | 0245779 |
1 | 16 | 1 |
2 | 7 | 18 |
---|---|---|
5 | 8 | 589 |
21 | 9 | 0122235555677889 |
(16) | 10 | 0122233334556778 |
13 | 11 | 133344566778 |
1 | 12 | 9 |
観測値をグループに分類できるようにする追加情報がある場合は、その情報に基づいてグループ変数を作成できます。それから、グループのグラフを作成し、データのピークがそのグループ変数によって説明されるかどうかを判定できます。