统计显著性和实际显著性

如果假设检验指示不太可能出现偶然发生的事情,则样本统计量和假设值之间的差值在统计意义上显著。要评估统计显著性,请检查检验的 p 值。如果 p 值小于指定的显著性水平 α(通常为 0.10、0.05 或 0.01),则可以声明差值在统计意义上显著并否定检验的原假设。

例如,假定您想要确定汽车挡风玻璃的厚度是否大于 4 毫米(正如安全规则中所要求的那样)。您抽取挡风玻璃样本,执行 α 为 0.05 的单样本 t 检验,并进行如下假设:
  • H0:μ = 4
  • H1:μ > 4
如果检验生成的 p 值为 0.001,则由于 p 值小于 α,您可声明统计显著性并否定原假设。您可以得出肯定备择假设的结论:挡风玻璃的厚度大于 4 毫米。

但是,如果 p 值等于 0.50,则不能声明统计显著性。您的证据不足,无法声明挡风玻璃的平均厚度大于 4 毫米。

统计意义上显著的结果实际上可能并不显著

统计显著性本身并不意味着您的结果有实际结果。如果您使用功效非常高的检验,则可能会得出与假设值的较小差值在统计意义上显著的结论。但是,较小的差值对于您的情形可能没有意义。您应当根据自己的专业知识来确定差值实际上是否显著。

例如,假定要检验在制造厂工作的小时数的总体均值 (μ) 是否等于 8。如果 μ 不等于 8,那么,当样本数量增加且 p 值接近 0 时,检验的功效将接近 1。

当观测值足够多时,假设值和实际参数值之间极小的差值也可能会变得显著。例如,假定 mu 的实际值为 7 小时 59 分 59 秒。在样本足够大时,您很有可能会否定原假设(即 μ 等于 8 小时),即便差值没有实际意义也是如此。

置信区间(如果适用的话)通常比假设检验更有用,因为置信区间不仅能够评估统计显著性,还提供了一种评估实际显著性的方法。置信区间有助于确定参数值(而非不是)什么。