箱线图提供了样本分布的图形汇总。箱线图显示数据的形状、集中趋势和变异性。
可使用箱线图检查数据的散布,以及确定任何可能的异常值。 当样本数量大于 20 时,箱线图具有最佳状态。
检查数据的散布以确定数据看上去是否偏斜。当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。
尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到 标识异常值。
直方图将样本值分成许多区间,并使用条形表示每个区间中的数据值的频率。
可使用直方图评估数据的形状和散布。 当样本数量大于 20 时,直方图具有最佳状态。
可以使用与正态曲线重叠的数据直方图来检查数据的正态性。正态分布是对称的,并且呈钟形,如曲线所示。通常很难评估小样本的正态性。概率图最适用于确定分布拟合。
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。
尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到 标识异常值。
多模态数据具有多个峰值,也称为模式。多模态数据往往表明未考虑到重要变量。
如果您具有其他信息以用于将观测值分类到组,则可以创建一个包含此信息的组变量。然后,可以创建其中含有组的图形,以确定组变量是否导致数据中的峰值。
单值图显示样本中的单个值。每个圆形表示一个观测值。当您具有的观测值相对较少,以及需要评估每个观测值的效果时,单值图尤其有用。
可使用单值图检查数据的散布,以及确定任何可能的异常值。 当样本数量小于 50 时,单值图具有最佳状态。
检查数据的散布以确定数据看上去是否偏斜。当数据偏斜时,大多数数据位于图形的高或低侧。通常情况下,在直方图或箱线图中最易于检测偏度。
异常值,是远离其他数据值的数据值,可以显著影响您的分析结果。通常情况下,在箱线图上最容易识别异常值。
尝试确定导致任何异常值的原因。更正任何数据输入错误或测量误差。考虑删除异常、单次事件(也称为特殊原因)的数据值。然后,重新执行分析。有关更多信息,请转到 标识异常值。
四分位数是三个值:第一个四分位数 (Q1) 在 25% 处,第二个四分位数(Q2 或中位数)在 50% 处,第三个四分位数 (Q3) 在 75% 处,这会将排序数据的样本四等分。
第一个四分位数是第 25 个百分位数,它指示有 25% 的数据小于或等于此值。
四分位间距 (IQR) 是第一个四分位数 (Q1) 和第三个四分位数 (Q3) 之间的距离。有 50% 的数据位于此间距内。
使用四分位间距可以描述数据的散布。数据越分散,四分位间距越大。
最大值是指最大的数据值。
在这些数据中,最大值为 19。
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
使用最大值可以标识可能的异常值或数据输入错误。评估数据散布最简单的方法之一就是比较最小值和最大值。如果最大值非常高,甚至要考虑数据的中心、散布和形状,请调查出现极端值的原因。
中位数是数据集的中点。在此中点值所在的点上,有一半的观测值大于中点值,有一半的观测值小于中点值。中位数是通过对观测值排秩并在秩顺序中查找第 [N + 1] / 2 位的观测值来确定的。如果观测值数为偶数,则中位数是排在第 N / 2 位和第 [N / 2] + 1 位的观测值的平均值。
最小值是最小的数据值。
在这些数据中,最小值为 7。
13 | 17 | 18 | 19 | 12 | 10 | 7 | 9 | 14 |
使用最小值可以标识可能的异常值或数据输入错误。评估数据散布最简单的方法之一就是比较最小值和最大值。如果最小值非常低,甚至要考虑数据的中心、散布和形状,请调查出现极端值的原因。
极差是样本中的最大数据值与最小数据值之差。极差表示包含所有数据值的区间。
使用极差可以了解数据的离差量。较大的极差值表示数据的离差较大。较小的极差值表示数据的离差较小。由于极差仅使用两个数据值进行计算,因此它对于小数据集更有用。
四分位数是三个值:第一个四分位数 (Q1) 在 25% 处,第二个四分位数(Q2 或中位数)在 50% 处,第三个四分位数 (Q3) 在 75% 处,这会将排序数据的样本四等分。
第三个四分位数是第 75 个百分位数,它指示有 75% 的数据小于或等于此值。
均值是数据的平均值,即所有观测值之和除以观测值的个数。
使用均值来描述具有表示数据中心的单个值的样本。很多统计分析使用均值作为数据分布中心的一个标准度量。
均值的标准误(SE 均值)估计样本均值之间的变异性,样本均值是在对相同总体重复抽样的情况下获得的。而均值的标准误估计样本之间的变异性,标准差度量单个样本内的变异性。
例如,根据 312 个交货时间的随机样本,得到平均交货时间为 3.80 天,标准差为 1.43 天。这些数字产生的均值标准误为 0.08 天(1.43 除以 312 的平方根)。如果从相同总体中抽取大小相同的多个随机样本,则这些不同样本均值的标准差将大约为 0.08 天。
使用均值的标准误可以确定样本均值对总体均值的估计精确度。
均值的标准误越小,对总体均值的估计越精确。通常,标准差越大,均值的标准误就越大,对总体均值的估计也越不精确。样本越大,均值的标准误就越小,对总体均值的估计也越精确。
Minitab 使用均值的标准误来计算置信区间。
数据的均值,不包括最高 5% 和最低 5% 的值。
使用截尾均值可以消除非常大或非常小的值对均值的影响。当数据中包含异常值时,与均值相比,截尾均值能够更好地度量集中趋势。
年级 | 计数 | CumN | 计算 |
---|---|---|---|
1 | 49 | 49 | 49 |
2 | 58 | 107 | 49 + 58 |
3 | 52 | 159 | 49 + 58 + 52 |
4 | 60 | 219 | 49 + 58 + 52 + 60 |
5 | 48 | 267 | 49 + 58 + 52 + 60 + 48 |
6 | 55 | 322 | 49 + 58 + 52 + 60 + 48 + 55 |
样本中缺失值的个数。缺失值个数是指包含缺失值符号 * 的单元格数。
总计数 | N | N* |
---|---|---|
149 | 141 | 8 |
样本中非缺失值的个数。
总数 | N | N* |
---|---|---|
149 | 141 | 8 |
列中观测值的总数。用于表示 N 缺失和 N 非缺失之和。
总计数 | N | N* |
---|---|---|
149 | 141 | 8 |
累积百分比是“按变量”的每个组所占百分比的累积和。在下面的示例中,“按变量”有 4 组:第 1 行、第 2 行、第 3 行和第 4 行。
组(按变量) | 百分比 | CumPct |
---|---|---|
第 1 行 | 16 | 16 |
第 2 行 | 20 | 36 |
第 3 行 | 36 | 72 |
第 4 行 | 28 | 100 |
“按变量”的每个组中的观测值所占的百分比。在下面的示例中,有四组:第 1 行、第 2 行、第 3 行和第 4 行。
组(按变量) | 百分比 |
---|---|
第 1 行 | 16 |
第 2 行 | 20 |
第 3 行 | 36 |
第 4 行 | 28 |
峰度表示分布的尾部与正态分布的区别。
偏度是数据的不对称程度。
变异系数 (CoefVar) 度量散布,散布描述数据相对于均值的变异程度。变异系数在经过调整后,值将采用无单位刻度。由于进行了此调整,可以使用变异系数(而非标准差)来比较数据中具有不同单位或具有迥异均值的变异性。
变异系数越大,数据越分散。
大容器 | 小容器 |
---|---|
变异系数 = 100 * 0.4 杯 / 16 杯 = 2.5 | 变异系数 = 100 * 0.08 杯 / 1 杯 = 8 |
标准差是离差的最常用度量,即数据从均值展开的程度。符号 σ(西格玛)通常用于表示总体的标准差,而 s 用于表示样本的标准差。对某一过程而言随机或合乎自然规律的变异通常称为噪声。对某一过程而言随机或合乎自然规律的变异通常称为噪声。
由于标准差与数据采用相同的单位,因此它通常比方差更易于解释。
使用标准差可以确定数据从均值扩散的程度。 标准差值越大,数据越分散。 对于正态分布来说,好的经验法则是大约 68% 的值位于均值的一个标准差范围内,95% 的值位于两个标准差范围内,99.7% 的值位于三个标准差范围内。
方差度量数据围绕其均值的分散程度。方差等于标准差的平方。
方差越大,数据越分散。
由于方差 (σ2) 是量的平方,因此其单位也是平方的,这在实际讨论中容易使人混淆。由于标准差与数据采用相同的单位,因此它通常更易于解释。例如,在公共汽车站等待时间样本的均值为 15 分钟,方差为 9 分钟2。由于方差与数据采用不同的单位,所以方差通常会显示为其平方根,即标准差。方差 9 分钟2 等效于标准差 3 分钟。
众数是一组观测值中出现频率最高的值。Minitab 还会显示有多少数据点等于众数。
均值和中位数都需要计算,但众数是通过对每个值在数据集内的出现次数进行计数来确定的。
众数可以与均值和中位数一起用来提供数据分布的总体特征。众数还可用来确定数据中的问题。
例如,有多个众数的分布可以确定样本包括来自两个总体的数据。如果数据包含两个众数,则分布是双模态分布。如果数据包含两个以上的众数,则分布是多模态分布。
MSSD 是均方递差。MSSD 是方差的估计值。MSSD 的一个可能用法是检验一系列观测值是否随机。在质量控制中,MSSD 的一个可能用法是在子组大小为 1 时估计方差。
和是所有数据值的合计。和还用在统计计算中,如用于计算均值和标准差。
未校正平方和是通过对列中的每个值求平方来计算的,它计算这些平方值的和。例如,如果列中包含 x1, x2, ... , xn,则平方和等于 (x12 + x22 + ... + xn2)。与校正平方和不同的是,未校正平方和包括误差。在对数据值求平方之前不会先减去均值。