检查分布的中心和散布。评估样本数量对茎叶图外观的可能影响。
对于每一行,“茎”(中间列)中的数字表示样本值的第一位(或前几位)。茎叶图顶部的“叶单元”指示叶值表示的小数位。
茎叶图显示客户等待与代表进行在线客户服务聊天的时间。第一行包含茎值 8、叶值 0、2 和 3。叶单元为 1。因此,茎叶图的第一行表示大约为 80、82 和 83 的样本值。值介于 80 秒和 119 秒之间。中位数位于其值在 95 秒和 99 秒之间的行中。
3 | 8 | 023 |
---|---|---|
8 | 8 | 56688 |
21 | 9 | 0111111222444 |
(6) | 9 | 555799 |
23 | 10 | 0000111233 |
13 | 10 | 55667789 |
5 | 11 | 14 |
3 | 11 | 579 |
调查任何奇怪的或不想要的特征。例如,客户等待时间的茎叶图显示值和散布高于预期。经调查显示,不稳定性和延迟是由异常高的 Web 流量导致的。
偏斜数据和多模态数据表明数据可能不是正态数据。异常值可能表明数据中存在其他情况。
确定数据是否偏斜。当数据偏斜时,大多数数据位于图形的高或低侧。偏斜表明数据可能未呈正态分布。通常情况下,在直方图或箱线图中最易于检测偏斜。
这些茎叶图说明的是偏斜数据。带右偏斜数据的茎叶图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的茎叶图显示失效时间数据。少数几个项立即失效,更多的项则在随后失效。
1 | -0 | 4 |
---|---|---|
6 | -0 | 33222 |
16 | -0 | 1111111111 |
(16) | 0 | 0000000011111111 |
18 | 0 | 22222333333 |
7 | 0 | 4555 |
3 | 0 | 6 |
2 | 0 | |
2 | 1 | |
2 | 1 | 2 |
1 | 1 | 4 |
3 | -1 | 333 |
---|---|---|
3 | -1 | |
5 | -0 | 99 |
6 | -0 | 6 |
8 | -0 | 44 |
24 | -0 | 3333333322222222 |
(7) | -0 | 1111111 |
21 | 0 | 000001111111 |
9 | 0 | 22233 |
4 | 0 | 445 |
1 | 0 | 6 |
如果已知数据本身未偏斜,请调查可能的原因。如果您希望分析严重偏斜的数据,请阅读该分析的“数据注意事项”主题,以确保您可以使用非正常据。
异常值是远离其他数据值的数据值,可能会显著影响您的结果。
在茎叶图上,末端的独立值标识可能的异常值。例如,此图底部的最后一个值可能是异常值。
2 | -2 | 20 |
---|---|---|
4 | -1 | 52 |
(13) | -0 | 8886555433300 |
14 | 0 | 00334688 |
6 | 1 | 0046 |
2 | 2 | 5 |
1 | 3 | |
1 | 4 | |
1 | 5 | |
1 | 6 | |
1 | 7 | |
1 | 8 | 0 |
尝试确定导致任何异常值的原因。更正任何测量误差或数据输入错误。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。
多模态数据具有多个峰值。(峰值表示一组数据的模式。)如果数据是从多个过程中或在多个条件(如多个温度)下收集的,通常会出现多模态数据。
例如,这些茎叶图是相同数据的图形。简单的茎叶图包含两个点聚类,但它并未清楚地指示聚类均值的含义。含组的茎叶图表明,聚类与两个组相对应。
2 | 7 | 18 |
---|---|---|
5 | 8 | 589 |
21 | 9 | 0122235555677889 |
37 | 10 | 0122233334556778 |
(14) | 11 | 13334455667789 |
49 | 12 | 2599 |
45 | 13 | 0012334667778888888 |
26 | 14 | 000011122236777888 |
8 | 15 | 0245779 |
1 | 16 | 1 |
2 | 11 | 59 |
---|---|---|
5 | 12 | 259 |
24 | 13 | 0012334667778888888 |
(18) | 14 | 000011122236777888 |
8 | 15 | 0245779 |
1 | 16 | 1 |
2 | 7 | 18 |
---|---|---|
5 | 8 | 589 |
21 | 9 | 0122235555677889 |
(16) | 10 | 0122233334556778 |
13 | 11 | 133344566778 |
1 | 12 | 9 |
如果您具有其他可用来对观测值进行分组的信息,则可以创建一个包含此信息的组变量。然后,可以创建含组的图形,以确定组变量是否导致数据中的峰值。