分割表とは

分割表は、複数のカテゴリ変数に従って観測値を集計する表です。表の行と列は、各カテゴリ変数に対応しています。

たとえば、最近行われた2人の候補者による選挙で出口調査を行うとします。投票者からランダムに100人選び、性別と誰に投票したかを記録してデータを次のように集計しました。

候補者A 候補者B すべて
男性 28 20 48
女性 39 13 52
すべて 67 33 100

この分割表は、性別と投票に従って応答を集計します。行iと列jの交差点の値はnijで表すことができます、これはその水準の組み合わせに該当する観測値の数を表しています。たとえば、n1,2は、候補者Bに投票した男性回答者の数を示します。

この表には、変数の各水準の周辺合計も含まれます。行の周辺合計から、回答者のうち52人が女性であることが分かります。列の周辺合計からは、67人の回答者が候補者Aに投票したことが分かります。また、総計はサンプルサイズが100であることを示しています。

分割表を使用して、2つの変数間の関連性を明らかにすることもできます。カイ二乗検定またはフィッシャーの正確検定を使用して、関連性がないとする帰無仮説で期待される値と実際の観測値が異なるかどうかを判断できます。たとえば、性別と投票の間に関連性が存在するかを検定できます。

最も単純な分割表は、2つの変数ごとに応答を集計する二元配置表です。観測値を3つ以上の変数によって分類する場合は、それらの変数を「交差」させます。前の選挙の例では、応答を雇用状況に応じて、さらに詳しく分類することもできます。

  候補者A 候補者B 合計
男性・就業 18 19 37
男性・無職 10 1 11
女性・就業 33 10 43
女性・無職 6 3 9
合計 67 33 100

単純対応分析では、3つ以上のデータを分類した分割表で関連性を検出できます。単純対応分析を実行するには、統計 > 多変量 > 単純コレスポンデンス分析を選択します。

2×2の分割表のオッズ比および信頼区間を計算する

オッズ比および信頼区間の計算で、統計 > 回帰 > 2値ロジスティック回帰 > 2値ロジスティックモデルの適合を使うことができます。

たとえば、アスピリンの服用と心臓発作の関係を調べていて、次の2×2の分割表のオッズ比とオッズ比の信頼区間を計算するとします。
  心臓発作 心臓発作なし
プラシーボ 189 10845
アスピリン 104 10933
  1. 次のデータをMinitabに入力します。
    C1 C2 C3
    グループ 心臓発作 計数
    プラシーボ はい 189
    プラシーボ いいえ 10845
    アスピリン はい 104
    アスピリン いいえ 10933
  2. 統計 > 回帰 > 2値ロジスティック回帰 > 2値ロジスティックモデルの適合を選択します。
  3. 応答で、C2と入力し、度数で、C3と入力します。
  4. カテゴリ予測変数C1と入力します。OKをクリックします。

2値ロジスティック回帰:心臓発作 対 グループ

カテゴリ予測変数のオッズ比 水準A 水準B オッズ比 95%信頼区間 グループ プラシーボ アスピリン 1.8321 (1.4400, 2.3308) 水準Bと比べた水準Aのオッズ比

オッズ比は1.8321です。これはプラシーボを服用している人が、アスピリンを服用している人よりも1.8321倍のオッズで心臓発作を起こすことを意味します。95%の信頼度でオッズ比の真の値が1.44~2.3308の範囲に収まるといえます。

この例に使用されているデータは、A. Agresti(1996年)『An Introduction to Categorical Data Analysis』John Wiley & Sons, Inc.の20ページからの引用です。