使用均值来描述具有表示数据中心的单个值的样本。很多统计分析使用均值作为数据分布中心的一个标准度量。
中位数是数据分布中心的另一个度量。中位数受异常值的影响通常比均值要小。一半的数据值大于中位数值,一半的数据值小于中位数值。
对于对称分布,均值(蓝线)和中位数(橙线)非常相似,以至于您很难区分这两条线。但是,非对称分布会向右偏斜。
在这些结果中,去除牙膏盖所需的转矩均值为 21.265,转矩中位数是 20。数据似乎向右偏斜,这解释了均值大于中位数的原因。
置信区间提供总体参数的可能值范围。例如,95% 置信水平表明,如果从总体中随机抽取 100 个样本,则大约 95 个样本将产生包含总体参数的区间。
使用直方图和箱线图可以评估数据的形状和散布,还可以标识任何可能的异常值。
当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。
带右偏斜数据的直方图显示等待时间。大部分等待时间相对较短,只有少数等待时间很长。带左偏斜数据的条形图显示故障时间数据。有几个项目立即失败,还有其他许多项目在随后失败。
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。
在箱线图上,星号 (*) 表示异常值。
尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到 标识异常值。
多模态数据具有多个峰值,也称为模式。多模态数据往往表明未考虑到重要变量。
如果您具有其他信息以用于将观测值分类到组,则可以创建一个包含此信息的组变量。然后,可以创建其中含有组的图形,以确定组变量是否导致数据中的峰值。
例如,一位银行经理收集等待时间数据,并创建一个简单的直方图。该直方图具有两个峰值。经过进一步调查,该经理确定:兑现支票的客户的等待时间短于申请房屋净值贷款的客户的等待时间。经理为客户任务添加一个组变量,然后创建一个包含该组的直方图。