統計的有意性と実質的有意性

仮説検定により偶然による発生の可能性が非常に低いことが示された場合、サンプル統計量と仮説値の差は統計的に有意です。統計的有意性を評価するには、検定のp値を調べます。p値が指定した有意水準(α)(通常、0.10、0.05、または0.01)より小さい場合、差が統計的に有意であり、検定の帰無仮説を棄却することを宣言できます。

たとえば、安全規則の要求どおり、自動車の風防ガラスの厚さが4mmを超えているかどうかを判定するとします。風防ガラスのサンプルを採取し、0.05のαと次の仮説で1サンプルt検定を実施します。
  • H0: μ = 4
  • H1: μ > 4
検定で得られるp値が0.001の場合、p値がαより小さいため、統計的有意性を宣言し、帰無仮説を棄却します。風防ガラスの厚さが4mmより大きいという対立仮説を支持すると結論付けます。

p値が0.50に等しい場合、統計的有意性を宣言できません。風防ガラスの平均の厚さが4mmより大きいと主張する十分な証拠がありません。

統計的有意性の結果は実質的有意性と異なる場合もあります

統計的有意性そのものは、結果が実質的に重大であることを示しません。非常に高い検出力の検定を使用すると、仮説値からの小さな差が統計的に有意であると結論付ける場合もあります。ただし、その小さな差が自分の状況では意味がない場合もあります。専門知識を使用して、差が実質的に有意かどうかを判断する必要があります。

たとえば、製造工場での労働時間の母平均(μ)が8時間に等しいかどうかを検定するとします。μが8に等しくない場合、サンプルサイズが大きくなるにつれて検定の検出力が1に近くなり、p値が0に近くなります。

観測値が十分多い場合、仮説パラメータ値と実際のパラメータ値の差が非常に小さくても、有意とみなされる可能性があります。たとえば、μの実際の値が7時間59分59秒だとします。サンプルが十分大きい場合、差が実質的には有意でないとしても、μが8時間に等しいという帰無仮説を棄却する確率が非常に高くなります。

信頼区間(該当する場合)は多くの場合、統計的有意性に加えて実質的有意性を評価することもできるため、仮説検定より役に立ちます。信頼区間は、パラメータ値が「何でないか」ではなく、「何であるか」を判断するのに役立ちます。