当您需要确定特定某总体特征(例如均值)的信息时,通常从总体中取一些随机样本,因为对总体进行度量是不可行的。通过使用该样本,您可以计算对应样本的特征,其用于概括关于未知总体特征的信息。所需的总体特征称为参数,相应样本特征为样本统计量或参数估计值。由于统计量是对从样本获取的参数的信息的摘要,因此统计量值取决于从总体中取的特定样本。其值随机地从一个随机样本更换到下一个随机样本,因此统计量是一个随机量(变量)。此随机变量的概率分布称为取样分布。(样本)统计量的采样分布很重要,因为它使我们能够基于随机抽样得出关于相应总体参数的结论。
例如,当我们从一个正态分布总体中取随机样本时,样本均值就是一个统计量。基于样本的样本均值是对总体均值的估计。如果从该同一正态总体中取不同的样本,该估计值将随机变化。用于描述这些变化的概率分布是样本均值的抽样分布。统计量的采样分布指定了统计量的所有可能值,以及统计量值的极差的变化频率。如果总体为正态,则样本均值的采样分布也为正态。
以下各节提供有关参数、参数估计值和采样分布的详细信息。
参数是整个总体的描述性度量,它可用作概率分布函数 (PDF) 的输入以生成分布曲线。参数通常用希腊字母表示,以与样本统计量区别开来。例如,总体均值由希腊字母 mu (μ) 表示,总体标准差由希腊字母 sigma (σ) 表示。参数是固定常量,也就是说,它们不会像变量一样变化。不过,它们的值通常是未知的,因为对整个总体进行度量是不可行的。
分布 | 参数 1 | 参数 2 | 参数 3 |
---|---|---|---|
卡方 | 自由度 | ||
正态 | 均值 | 标准差 | |
3 参数 Gamma | 形状 | 尺度 | 阈值 |
参数是对整个总体的描述性度量。不过,它们的值通常是未知的,因为对整个总体进行度量是不可行的。因此,您可以从总体取一个随机样本以获得参数估计值。统计分析的一个目标是获得总体参数的估计值,以及与这些估计关联的误差量。这些估计值也称为样本统计量。
对于参数估计值的示例,假设您为一家火花塞制造商工作,该公司正在研究火花塞间隙存在的问题。要检验其所生产的每个火花塞,成本太高。于是,您随机抽取了 100 个火花塞,并以毫米为单位度量间隙。样本均值为 9.2。这是总体均值 (μ) 的点估计值。您还为 μ 创建了一个 95% 置信区间,该区间为 (8.8, 9.6)。您也可以为 μ(8.8,9.6)创建一个 95% 的置信区间。
南瓜 | 1 | 2 | 3 | 4 | 5 | 6 |
重量 | 19 | 14 | 15 | 12 | 16 | 17 |
虽然整个总体是已知的,但是为了便于说明,我们从总体中取包含 3 个南瓜的所有可能随机样本(20 个随机样本)。然后,计算各样本的均值。样本均值的取样分布由每个可能随机样本(包含 3 个南瓜)的所有样本均值描述,其显示在下表中。
样本 | 重量 | 平均重量 | 概率 |
---|---|---|---|
2, 3, 4 | 14, 15, 12 | 13.7 | 1/20 |
2, 4, 5 | 14, 12, 16 | 14 | 1/20 |
2, 4, 6 | 14, 12, 17 | 14.3 | 2/20 |
3, 4, 5 | 15, 12, 16 | ||
3, 4, 6 | 15, 12, 17 | 14.7 | 1/20 |
1, 2, 4 | 19, 14, 12 | 15 | 3/20 |
2, 3, 5 | 14, 15, 16 | ||
4, 5, 6 | 12, 16, 17 | ||
2, 3, 6 | 14, 15, 17 | 15.3 | 2/20 |
1, 3, 4 | 19, 15, 12 | ||
1, 4, 5 | 19, 12, 16 | 15.7 | 2/20 |
2, 5, 6 | 14, 16, 17 | ||
1, 2, 3 | 19, 14, 15 | 16 | 3/20 |
3, 5, 6 | 15, 16, 17 | ||
1, 4, 6 | 19, 12, 17 | ||
1, 2, 5 | 19, 14, 16 | 16.3 | 1/20 |
1, 2, 6 | 19, 14, 17 | 16.7 | 2/20 |
1, 3, 5 | 19, 15, 16 | ||
1, 3, 6 | 19, 15, 17 | 17 | 1/20 |
1, 5, 6 | 19, 16, 17 | 17.3 | 1/20 |
在实际中,生成以上所示的采样分布表是不可行的。即使在最佳情况下(即知道样本的父级总体),可能仍无法确定所需样本统计量的精确采样分布。但是,在某些情况下,可能能够大致地确定样本量统计的采样分布。例如,如果从正态总体中取样,则样本平均值具有完全的正态分布。
但是,如果从一个非正态分布中抽样,则可能无法确定样本均值的准确分布。但是,由于中心极限定理,样本均值近似地呈正态分布,前提是您的样本足够大。然后,如果总体未知并且样本足够大,则您也许能够做出判断(例如,85% 地判断样本均值在一定数量的总体均值的标准差之内)。