解释 图形汇总 的主要结果

请完成以下步骤来解释图形化汇总。主要输出包括 p 值、均值、中位数、置信区间和多个图形。

步骤 1:描述数据的中心

使用均值来描述具有表示数据中心的单个值的样本。很多统计分析使用均值作为数据分布中心的一个标准度量。

中位数是数据分布中心的另一个度量。中位数受异常值的影响通常比均值要小。一半的数据值大于中位数值,一半的数据值小于中位数值。

中位数和均值均测量中心趋势。但是,不寻常的值(称为异常值)对中位数的影响会小于它们对均值的影响。如果数据是对称的,则均值和中位数相似。
对称
非对称

对于对称分布,均值(蓝线)和中位数(橙线)非常相似,以至于您很难区分这两条线。但是,非对称分布会向右偏斜。

主要结果:均值和中位数

在这些结果中,去除牙膏盖所需的转矩均值为 21.265,转矩中位数是 20。数据似乎向右偏斜,这解释了均值大于中位数的原因。

步骤 2:确定均值、中位数和标准差的置信区间

置信区间提供总体参数的可能值范围。例如,95% 置信水平表明,如果从总体中随机抽取 100 个样本,则大约 95 个样本将产生包含总体参数的区间。

主要结果:均值的置信区间、中位数的置信区间和标准差的置信区间

在这些结果中,置信区间指示以下结论的可信度为 95%:
  • The population mean for the torque measurements is between 19.710 and 22.819.
  • The population median for the torque measurements is between 17 and 21.521.
  • The population standard deviation for the torque measurements is between 5.495 and 7.729.

步骤 3:评估数据分布的形状和散布

使用直方图和箱线图可以评估数据的形状和散布,还可以标识任何可能的异常值。

检查数据的散布以确定数据看上去是否偏斜

当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。

右偏斜
左偏斜

带右偏斜数据的直方图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的条形图显示故障时间数据。有几个项目立即失败,还有其他许多项目在随后失败。

标识异常值

异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。

在箱线图上,星号 (*) 表示异常值。

尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到 标识异常值

查找多模态数据

多模态数据具有多个峰值,也称为模式。多模态数据往往表明未考虑到重要变量。

如果您具有其他信息以用于将观测值分类到组,则可以创建一个包含此信息的组变量。然后,可以创建其中含有组的图形,以确定组变量是否导致数据中的峰值。

简单
含组

例如,一位银行经理收集等待时间数据,并创建一个简单的直方图。该直方图具有两个峰值。经过进一步调查,该经理确定:兑现支票的客户的等待时间短于申请房屋净值贷款的客户的等待时间。经理为客户任务添加一个组变量,然后创建一个包含该组的直方图。