假设检验的功效是检验正确否定原假设的概率。假设检验的功效受到检验的样本数量、差值、数据变异性和显著性水平的影响。

如果检验的功效低,则您可能无法检测到效应并错误地得出不存在任何效应的结论。如果检验的功效太高,则很小的效应或不需要关注的效应看上去都可能会很显著。

所有检验都不可能尽善尽美,总存在这样的可能,即当原假设 (H0) 实际为真时您会根据检验结果否定原假设(I 型错误),或当原假设实际为假时您根据检验结果未能否定 H0(II 型错误)。这是因为为了估计总体均值,您必须使用随机样本,而这些随机样本都是随机抽取的。因此,总有这样的可能,即您得出的样本均值与总体均值之间存在很大的差异。

例如,假定某个正态分布总体的均值 (μ) 为 10,标准差 (σ) 为 2。此分布指示此总体中有 95.44% 的值介于 6 和 14 之间。但是,您始终可以随机选择 10 个观测值并最终得出样本均值 4。从这样的样本中,您无法猜测总体的总体均值实际为 10!

当然,取得这样的样本的几率相当小,但是确实存在这种可能。抽样错误有时可能会导致错误的结论。虽然您不知道会发生这种情况的时间,但是您可以估计它发生的频率。这正是功效的作用。

例如,假定您执行单样本 t 检验来确定工厂的洗发水瓶中所装产品的平均体积是否不同于目标体积 8 oz。您决定随机抽取 10 瓶样品。如果 μ 实际上是 7.5 oz(瓶中的洗发水少装了 0.5 oz),σ 实际上是 0.43 oz,则检验的功效为 0.9039。

功效值为 0.9039 意味着如果您进行检验并多次重复同样的试验(每次抽取一个新的随机样本),那么您最终会正确地否定原假设的几率为 90.39%。而剩下的 9.61% 的几率,就是即使 H0 实际上为假而由于抽样误差您未能否定它的几率。当然,您不可能多次重复进行检验,但是最好还是要知道获得错误样本的几率相对较小。