分割表は、複数のカテゴリ変数に従って観測値を集計する表です。表の行と列は、各カテゴリ変数に対応しています。
たとえば、最近行われた2人の候補者による選挙で出口調査を行うとします。投票者からランダムに100人選び、性別と誰に投票したかを記録してデータを次のように集計しました。
候補者A | 候補者B | すべて | |
---|---|---|---|
男性 | 28 | 20 | 48 |
女性 | 39 | 13 | 52 |
すべて | 67 | 33 | 100 |
この分割表は、性別と投票に従って応答を集計します。行iと列jの交差点の値はnijで表すことができます、これはその水準の組み合わせに該当する観測値の数を表しています。たとえば、n1,2は、候補者Bに投票した男性回答者の数を示します。
この表には、変数の各水準の周辺合計も含まれます。行の周辺合計から、回答者のうち52人が女性であることが分かります。列の周辺合計からは、67人の回答者が候補者Aに投票したことが分かります。また、総計はサンプルサイズが100であることを示しています。
分割表を使用して、2つの変数間の関連性を明らかにすることもできます。カイ二乗検定またはフィッシャーの正確検定を使用して、関連性がないとする帰無仮説で期待される値と実際の観測値が異なるかどうかを判断できます。たとえば、性別と投票の間に関連性が存在するかを検定できます。
最も単純な分割表は、2つの変数ごとに応答を集計する二元配置表です。観測値を3つ以上の変数によって分類する場合は、それらの変数を「交差」させます。前の選挙の例では、応答を雇用状況に応じて、さらに詳しく分類することもできます。
候補者A | 候補者B | 合計 | |
---|---|---|---|
男性・就業 | 18 | 19 | 37 |
男性・無職 | 10 | 1 | 11 |
女性・就業 | 33 | 10 | 43 |
女性・無職 | 6 | 3 | 9 |
合計 | 67 | 33 | 100 |
単純対応分析では、3つ以上のデータを分類した分割表で関連性を検出できます。単純対応分析を実行するには、
を選択します。オッズ比および信頼区間の計算で、を使うことができます。
心臓発作 | 心臓発作なし | |
---|---|---|
プラシーボ | 189 | 10845 |
アスピリン | 104 | 10933 |
C1 | C2 | C3 |
---|---|---|
グループ | 心臓発作 | 計数 |
プラシーボ | はい | 189 |
プラシーボ | いいえ | 10845 |
アスピリン | はい | 104 |
アスピリン | いいえ | 10933 |
オッズ比は1.8321です。これはプラシーボを服用している人が、アスピリンを服用している人よりも1.8321倍のオッズで心臓発作を起こすことを意味します。95%の信頼度でオッズ比の真の値が1.44~2.3308の範囲に収まるといえます。
この例に使用されているデータは、A. Agresti(1996年)『An Introduction to Categorical Data Analysis』John Wiley & Sons, Inc.の20ページからの引用です。