统计显著性和实际显著性

如果假设检验指示不太可能出现偶然发生的事情，则样本统计量和假设值之间的差值在统计意义上显著。要评估统计显著性，请检查检验的 p 值。如果 p 值小于指定的显著性水平 α（通常为 0.10、0.05 或 0.01），则可以声明差值在统计意义上显著并否定检验的原假设。

例如，假定您想要确定汽车挡风玻璃的厚度是否大于 4 毫米（正如安全规则中所要求的那样）。您抽取挡风玻璃样本，执行 α 为 0.05 的单样本 t 检验，并进行如下假设：

如果检验生成的 p 值为 0.001，则由于 p 值小于 α，您可声明统计显著性并否定原假设。您可以得出肯定备择假设的结论：挡风玻璃的厚度大于 4 毫米。

但是，如果 p 值等于 0.50，则不能声明统计显著性。您的证据不足，无法声明挡风玻璃的平均厚度大于 4 毫米。

统计意义上显著的结果实际上可能并不显著

统计显著性本身并不意味着您的结果有实际结果。如果您使用功效非常高的检验，则可能会得出与假设值的较小差值在统计意义上显著的结论。但是，较小的差值对于您的情形可能没有意义。您应当根据自己的专业知识来确定差值实际上是否显著。

例如，假定要检验在制造厂工作的小时数的总体均值 (μ) 是否等于 8。如果 μ 不等于 8，那么，当样本数量增加且 p 值接近 0 时，检验的功效将接近 1。

当观测值足够多时，假设值和实际参数值之间极小的差值也可能会变得显著。例如，假定 mu 的实际值为 7 小时 59 分 59 秒。在样本足够大时，您很有可能会否定原假设（即 μ 等于 8 小时），即便差值没有实际意义也是如此。

置信区间（如果适用的话）通常比假设检验更有用，因为置信区间不仅能够评估统计显著性，还提供了一种评估实际显著性的方法。置信区间有助于确定参数值是（而非不是）什么。