解释箱线图的主要结果

请完成以下步骤来解释箱线图。

步骤 1:评估主要特征

检查分布的中心和散布。评估样本数量对箱线图外观的影响。

中心和散布

检查以下元素可深入了解样本数据的中心和散布。
中位数
中位数由箱子中的线表示。中位数常用于度量数据的中心。一半观测值小于等于该值,而另一半则大于等于该值。
四分位间距框
四分位间距框表示中间 50% 的数据。它显示第一个四分位数与第三个四分位数之间的距离 (Q3-Q1)。
须从箱子的任一侧延伸。须表示下 25% 和上 25% 的数据值的范围,不包括异常值。

将指针放在箱线图上以显示包含这些统计量的工具提示。例如,静息心率的此箱线图显示心率的中位数为 71。大多数主体的心率介于 64 和 80 之间,但也有一些主体的心率低至 48 或高至 100。

调查此箱线图上任何奇怪的或不想要的特征。例如,箱线图上可能显示木板的长度中位数远小于目标长度 8 英尺。

注意

由于箱线图的四分位数是计算值,因此它们可能不是数据集内的实际观测值。有关如何解释四分位数的更多信息,请转到什么是四分位数?。有关如何计算四分位数的具体信息,请转到图形汇总的方法和公式

样本数量 (n)

样本数量可能会影响图形的外观。

例如,尽管这两个箱线图似乎有相当大的差异,但这两个箱线图都是使用从同一个总体中随机选择的数据样本创建的。
n = 15
n = 500

当样本数量最少为 20 时,箱线图效果最佳。如果样本数量太小,箱线图显示的四分位数和异常值可能没有意义。如果样本数量小于 20,请考虑改用单值图

步骤 2:查找非正常或异常数据的指示符

偏斜数据表明数据可能不正常。异常值可能表明数据中存在其他情况。

偏斜数据

当数据偏斜时,大多数数据位于图形的高或低侧。偏斜表明数据可能未呈正态分布。

这些箱线图说明的是偏斜数据。带右偏斜数据的箱线图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的箱线图显示失效时间数据。少数几个项立即失败,更多的项会在随后失败。

右偏斜
左偏斜

如果已知数据本身未偏斜,请调查可能的原因。如果您希望分析严重偏斜的数据,请阅读该分析的“数据注意事项”主题,以确保您可以使用非正常数据。

异常值

异常值是远离其他数据值的数据值,可能会显著影响您的结果。通常情况下,在箱线图上最容易识别异常值

在箱线图上,异常值用星号 (*) 标识。
提示

将指针放在异常值上以标识数据点。

尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除与异常的单次事件(也称为特殊原因)相关联的数据值。然后,重新执行分析。

步骤 3:评估和比较组

如果箱线图含组,请评估和比较组的中心和散布。

中心

查找组中心之间的差异。

例如,此箱线图显示四个供应商生产的电线的厚度。一些组的厚度中位数似乎不同。

散布

查找组散布之间的差异。

例如,此箱线图显示四条生产线生产的麦片盒的填充重量。各组麦片盒的重量中位数比较相似,但某些组的重量比其他组的变异性大。
要确定散布(方差)之间的差异在统计意义上是否显著,请执行以下操作之一: