抽样分布描述从总体的随机样本中获取统计量的每个可能值的可能性;换句话说,该大小的所有随机样本中有多大比率将得到该值。 自举是一种通过抽取多个样本来估计抽样分布的方法,这些样本中包含单个随机样本的替换内容。这些重复样本称为重新采样的样本。每个重新采样样本的数量与原始样本相同。

原始样本表示从其中抽取样本的总体。因此,来自原始样本的重新抽样样本表示,从总体中抽取许多样本时将获得的内容。基于重新抽样样本的统计量自举分布标识统计量的抽样分布。

例如,您想要估计蓝色 M&M 所占比率的抽样分布。您打开一个随机包,并确定总共有 102 个 M&M,其中有 23 个 (22.5%) 为蓝色。包含此原始样本中替换内容的重复抽样模拟总体的可能形式。要重新抽样,从原始样本中随机选择一个 M&M,对颜色重新排序,将该 M&M 重新放入样本中。这样执行 102 次(原始样本的数量)以完成单次重新抽样。下面的条形图表示从原始样本中抽取的单个自举样本。

由于重新抽样是通过对替换内容抽样来完成的,因此自举样本比率通常将与原始比率不完全匹配。此条形图显示,在原始样本中发现大约 22.5% 的 M&M 为蓝色,而在自举样本中发现大约 28.4% 的 M&M 为蓝色。要创建自举分布,可以重新抽取许多样本。下面的直方图显示原始 M&M 包的 1,000 个重新抽样样本的自举分布。

自举分布集中在大约 22.5%(总体比率的估计值)处。红色参考线表示 95% 置信区间。自举分布的中间 95% 值为蓝色 M&M 的总体比率提供 95% 置信区间。在该示例中,蓝色 M&M 的总体比率介于大约 13.7% 和 31.4% 之间的可信度为 95%。

自举和中心极限定理

中心极限定理是概率和统计的基本定理。该定理阐明,当样本数量较大时,不管总体分布的形状如何,,来自具有有限方差的总体的随机样本的均值的分布将近似服从正态分布。通过ziju可以轻松地了解中心极限定理的工作方式。请考虑来自指数分布的数据。

很显然,数据不是正态的。dan,现在,我们将抽取包含 50 个观测值的样本,并创建 10 个重新抽样样本的自举均值分布。

均值分布与指数分布有很大差异。均值分布更接近正态分布。重新抽样次数越多,均值分布与正态分布越相似。如果重新抽样 1,000 次,重新抽样样本的均值分布大致呈正态。