使用 N 可以知道样本中有多少个观测值。Minitab 在该计数中不包括缺失值。
您不应当收集数量较小的数据样本。至少包含 20 个观测值的样本通常足以表示数据的分布。但是,为了更好地使用直方图表示分布,一些业内人员建议您至少有 50 个观测值。样本越大,提供的过程参数估计值(如均值和标准差)越精确。
变量 | N | N* | 均值 | 均值标准误 | 标准差 | 最小值 | 下四分位数 | 中位数 | 上四分位数 | 最大值 |
---|---|---|---|---|---|---|---|---|---|---|
转矩 | 68 | 0 | 21.2647 | 0.778784 | 6.42202 | 10 | 16 | 20 | 24.75 | 37 |
在这些结果中,有 68 个观测值。
使用均值来描述具有表示数据中心的单个值的样本。很多统计分析使用均值作为数据分布中心的一个标准度量。
中位数是数据分布中心的另一个度量。中位数受异常值的影响通常比均值要小。一半的数据值大于中位数值,一半的数据值小于中位数值。
变量 | N | N* | 均值 | 均值标准误 | 标准差 | 最小值 | 下四分位数 | 中位数 | 上四分位数 | 最大值 |
---|---|---|---|---|---|---|---|---|---|---|
转矩 | 68 | 0 | 21.2647 | 0.778784 | 6.42202 | 10 | 16 | 20 | 24.75 | 37 |
在这些结果中,去除牙膏盖所需的转矩均值为 21.265,转矩中位数是 20。数据似乎向右偏斜,这解释了均值大于中位数的原因。
使用标准差可以确定数据从均值扩散的程度。 标准差值越大,数据越分散。
变量 | N | N* | 均值 | 均值标准误 | 标准差 | 最小值 | 下四分位数 | 中位数 | 上四分位数 | 最大值 |
---|---|---|---|---|---|---|---|---|---|---|
转矩 | 68 | 0 | 21.2647 | 0.778784 | 6.42202 | 10 | 16 | 20 | 24.75 | 37 |
在这些结果中,标准差是 6.422。对于正态数据来说,大多数观测值分散于均值每一侧 3 个标准差内。
可使用直方图、单值图和箱线图评估数据的形状和散布,还可以确定任何可能的异常值。
当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。
评估点的散布情况,以确定样本的变异程度。样本的变异程度越大,越多点从远离数据中心散布。
多模态数据具有多个峰值,也称为模式。多模态数据往往表明未考虑到重要变量。
如果您具有其他信息以用于将观测值分类到组,则可以创建一个包含此信息的组变量。然后,可以创建其中含有组的图形,以确定组变量是否导致数据中的峰值。
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。
尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到 标识异常值。
如果您有一个用来标识数据中各个组的按变量,则可以使用它来按组或按组水平分析数据。
变量 | 机器 | N | N* | 均值 | 均值标准误 | 标准差 | 最小值 | 下四分位数 | 中位数 | 上四分位数 | 最大值 |
---|---|---|---|---|---|---|---|---|---|---|---|
转矩 | 1 | 36 | 0 | 18.6667 | 0.732467 | 4.39480 | 10 | 15.25 | 17 | 21.75 | 30 |
2 | 32 | 0 | 24.1875 | 1.25839 | 7.11852 | 14 | 17.5 | 24 | 31 | 37 |
在这些结果中,汇总统计量是按机器单独计算的。您可以方便地查看每台机器的中心差值和数据散布。例如,机器 1 的平均转矩和变异性比机器 2 小。要确定均值差值是否显著,可以执行双样本 t 检验。