関連性のカイ二乗検定のデータに関する考慮事項

有効な結果が確実に得られるようにするため、データの収集、分析の実行、および結果の解釈時には、次のガイドラインを考慮してください。

生データまたは要約データを収集する
生データの列2つまたは要約データを分割表の形式で使うことができます。データが度数形式の場合は、クロス集計とカイニ乗を使います。

欠損値は分割表では認められません。

サンプルはランダムに選択される必要がある

Xの水準ごとに、工程を代表するようなアイテムのランダムサンプルを収集します。X変数の各水準が異なる工程または位置を意味する場合があります。たとえば、請求書を処理する支店が複数ある場合は、各支店から請求書のサンプルを収集する必要があります。

ランダムサンプルは、母集団についての総合化または推測に用います。データがランダムに収集されていない場合、結果が正しくない可能性があります。

各観測値は他のすべての観測値から独立している必要があります

観測値の独立性は、関連性のカイ二乗検定の重要な前提です。

データはカテゴリ必須
カテゴリ変数には、有限可算数のカテゴリまたは知覚グループが含まれます。カテゴリデータには、論理的順序がない場合があります。たとえば、カテゴリ予測変数には、性別、材料種、支払い方法が含まれます。
すべてのデータが重複なしで、相互に排他的なカテゴリに分類されなければならない

関連性のカイ二乗検定は、変数カテゴリが重複する場合は実行できません。したがって、各観測値は1つまた唯一のカテゴリに分類されます。

期待度数は小さすぎないようにしなければならない
どのカテゴリでも妥当な確率で結果が観測されるように、各サンプルには十分な大きさが必要です。期待度数が小さすぎる場合、検定のp値が正確でなくなる可能性があります。Minitabでは、期待度数が小さすぎるかどうかと、検定の妥当性を保証するために必要な各サンプルのサイズが示されます。
カテゴリの期待度数が低すぎる場合、最小限の期待度数を得るために、隣接するカテゴリと結合できることもあります。 カテゴリを結合する時に情報を失うため、カテゴリを結合するのは必要な場合に限られます。