检查分布的尖峰和散布。评估样本数量对直方图外观的影响。
标识尖峰(即,条的最高聚类)。尖峰表示样本中最常见的值。评估样本的散布以了解数据的变异程度。
调查此直方图上任何奇怪的或不需要的特征。例如,客户等待时间的直方图显示的散布宽度超出预期。经调查发现,是计算机软件更新导致了客户等待时间延迟。
样本数量可能会影响图形的外观。
当样本数量最少为 20 时,直方图效果最佳。如果样本数量太小,直方图上每个条形包含的数据点不足,无法准确显示数据的分布情况。样本越大,直方图与总体分布的形状越相似。如果样本数量小于 20,请考虑改用单值图。
偏斜数据和多模态数据表明数据可能不正常。异常值可能表明数据中存在其他情况。
当数据偏斜时,大多数数据位于图形的高或低侧。偏斜表明数据可能未呈正态分布。
这些直方图说明的是偏斜数据。带右偏斜数据的直方图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的直方图显示失效时间数据。少数几个项立即失败,更多的项会在随后失败。
如果已知数据本身未偏斜,请调查可能的原因。如果您希望分析严重偏斜的数据,请阅读该分析的“数据注意事项”主题,以确保您可以使用非正常数据。
异常值是远离其他数据值的数据值,可能会显著影响您的结果。通常情况下,在箱线图上最容易识别异常值
尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。
多模态数据具有多个峰值。(峰值表示一组数据的模式。)如果数据是从多个过程中或在多个条件(如多个温度)下收集的,通常会出现多模态数据。
例如,这些直方图是包含相同数据的图形。简单直方图包含两个尖峰,但它并未清楚地指示尖峰的含义。含组的直方图表明,尖峰与两个组相对应。
如果您具有其他可用来对观测值进行分组的信息,则可以创建一个包含此信息的组变量。然后,可以创建含组的图形,以确定组变量是否导致数据中的峰值。
要向现有的图形中添加组变量,请在图形中双击数据表示形式,然后单击组选项卡。
如果直方图含组,请评估和比较组的中心和散布。