双样本均值引导 的自举样本统计量和图形

请查找相关定义和解释指导,了解随双样本均值的自举提供的每个自举样本统计量和图形。

直方图

直方图将样本值分成多个区间并使用条形表示每个区间中的数据值频率。

解释

使用直方图可以检查自举分布的形状。自举分布是每个重新采样样本的均值分布。自举分布看上去应当为正态分布。如果自举分布不是正态分布,您将无法信任结果。
50 个重新采样的样本
1000 个重新采样的样本

通常,重新采样的样本越多,越便于确定自举分布。例如,在这些数据中,对于 50 个重新采样样本,分布看上去不明确。对于 1000 个重新采样样本,分布形状看上去接近正态。

在该直方图中,自举分布看上去为正态分布。

单值图

单值图显示样本中的单个值。每个圆形表示一个观测值。当您具有的观测值相对较少,以及需要评估每个观测值的效应时,单值图尤其有用。

注意

只有当您仅进行一次重新采样时,Minitab 才显示单值图。Minitab 既显示原始数据又显示重新采样数据。

解释

对于大样本数量,自举样本通常将与原始样本具有相似的中心和散布。但是,小样本数量可能会导致与原始样本不相似的自举样本。如果自举样本看上去不像原始样本,您应当考虑增加样本数量。
样本数量 8
样本数量 50

重复样本数

重复样本数是指 Minitab 从原始数据集中进行替换性随机抽样的次数。通常,重复样本数较大时,效果最佳。每个重复样本的样本数量等于原始数据集的样本数量。重复样本数等于直方图上的观测值数。

平均值

平均值是自举样本中所有均值差值之和除以重新采样的样本数。

解释

Minitab 对于均值差值显示两个不同的值:观测样本的差值和自举分布的差值(平均值)。这两个值都是总体均值的差值估计值,而且通常将相似。如果这两个值之间存在较大的差异,您应当增加原始样本的样本数量。

由于平均值基于样本数据而不是整个总体,因此平均值不可能等于总体均值的差值。使用置信区间可以更好地估计总体均值的差值。

标准差(自举样本)

标准差是离差的最常用度量,即数据从均值展开的程度。符号 σ(西格玛)通常用于表示总体的标准差,而 s 用于表示样本的标准差。对某一过程而言随机或合乎自然规律的变异通常称为噪声。对某一过程而言随机或合乎自然规律的变异通常称为噪声。由于标准差与数据采用相同的单位,因此它通常比方差更易于解释。

自举样本的标准差(也称为自举标准误)是均值之差的抽样分布的标准差估计值。

解释

使用标准差可以确定自举样本的差值从差值的总体均值展开的程度。标准差值越大,差值越分散。对于正态分布来说,好的经验法则是大约 68% 的值位于差值的总体均值的一个标准差范围内,95% 的值位于两个标准差范围内,99.7% 的值位于三个标准差范围内。

使用自举样本的标准差可确定自举样本的差值对总体均值之差的估计精确度。值越小,表明总体差值的估计值越精确。通常,标准差越大,总体差值的自举标准误就越大,估计值越不精确。样本数量越大,总体差值的自举标准误就越小,估计值越精确。

置信区间 (CI) 和边界

置信区间基于统计量的抽样分布。如果统计量不将偏倚作为参数的估计量,则它的抽样分布以参数的真实值为中心。自举分布接近接近统计量的抽样分布。因此自举分布的中间 95% 值为该参数提供 95% 置信区间。置信区间有助于估计总体参数估计值的实际显著性。使用您的专业知识可以确定置信区间是否包括对您的情形有实际显著性的值。

注意

当重新采样的样本数太小,以至于无法获取准确的置信区间时,Minitab 不计算置信区间。

观测到的样本

医院N均值标准差方差最小值中位数最大值
A2080.308.1866.9662.0079.0098.00
B2059.3012.43154.5435.0058.5089.00

观测到的均值差值

A 的均值 - B 的均值 = 21

均值差值的 Bootstrap 样本

重新采样数平均标准差差值的 95% 置信区间
100020.9603.279(14.400, 27.600)

在这些结果中,总体差值的估计值为 20.96。总体差值介于 14.4 和 27.6 之间的可信度为 95%。