检查分布的中心和散布。评估样本数量对茎叶图外观的可能影响。
对于每一行,“茎”(中间列)中的数字表示样本值的第一位(或前几位)。茎叶图顶部的“叶单元”指示叶值表示的小数位。
调查任何奇怪的或不想要的特征。例如,客户等待时间的茎叶图显示值和散布高于预期。经调查显示,不稳定性和延迟是由异常高的 Web 流量导致的。
偏斜数据和多模态数据表明数据可能不是正态数据。异常值可能表明数据中存在其他情况。
异常值是远离其他数据值的数据值,可能会显著影响您的结果。
尝试确定导致任何异常值的原因。更正任何测量误差或数据输入错误。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。
多模态数据具有多个峰值。(峰值表示一组数据的模式。)如果数据是从多个过程中或在多个条件(如多个温度)下收集的,通常会出现多模态数据。
例如,这些茎叶图是相同数据的图形。简单的茎叶图包含两个点聚类,但它并未清楚地指示聚类均值的含义。含组的茎叶图表明,聚类与两个组相对应。
如果您具有其他可用来对观测值进行分组的信息,则可以创建一个包含此信息的组变量。然后,可以创建含组的图形,以确定组变量是否导致数据中的峰值。