분할표의 정의

분할표는 여러 개의 범주형 변수를 기준으로 관측치를 기록하는 표입니다. 표의 행과 열들이 이러한 범주형 변수들에 해당됩니다.

예를 들어, 후보자가 두 명인 최근 선거에서 출구 조사를 통해 유권자 100명의 성별과 투표 내용을 기록하고 다음과 같이 데이터를 표로 정리했습니다.

A 후보 B 후보 모두
남성 28 20 48
여성 39 13 52
모두 67 33 100

이 분할표에는 성별 반응 및 투표 내용이 기록됩니다. i행과 j열이 교차하는 위치의 카운트는 nij로 표시되며, 해당 수준의 조합에 해당하는 관측치의 수를 나타냅니다. 예를 들어, n1,2는 B 후보에게 투표한 남성 응답자의 수를 나타냅니다.

이 표에는 변수의 각 수준에 대한 주변 총계도 포함됩니다. 행의 주변 총계는 응답자 중 52명이 여성임을 나타냅니다. 열의 주변 총계는 응답자 중 67명이 A 후보에게 투표했음을 보여줍니다. 또한 전체 총계는 표본 크기가 100임을 나타냅니다.

분할표는 두 변수 간의 연관성도 나타냅니다. 카이-제곱 검정이나 Fisher의 정확 검정을 사용하여 아무런 연관성도 없다는 귀무 가설의 기대 카운트와 관측치 카운트 사이에 유의한 차이가 있는지 검사할 수 있습니다. 예를 들어, 성별과 투표 간에 연관성의 존재 여부를 검정할 수 있습니다.

가장 간단한 분할표는 두 변수의 반응값을 기록하는 이원 표입니다. 세 개 이상의 변수를 "교차"함으로써 세 개 이상의 변수에 따라 관측치를 분류할 수 있습니다. 위의 투표 예에서 다음과 같이 고용 상태에 따라 반응값을 분류할 수도 있습니다.

  A 후보 B 후보 합계
남성 / 취업 18 19 37
남성 / 미취업자 10 1 11
여성 / 취업 33 10 43
여성 / 미취업자 6 3 9
합계 67 33 100

단순 대응 분석을 통해 세 개 이상의 변수를 사용하여 데이터가 분류되는 분할표의 연관성 존재 여부를 검증할 수 있습니다. Minitab에서 단순 대응 분석을 수행하려면 통계분석 > 다변량 > 단순 대응 분석을 선택하십시오.

2 X 2 분할표에 대한 승산비 및 신뢰 구간 계산

통계분석 > 회귀 분석 > 이항 로지스틱 회귀 분석 > 이항 로지스틱 모형 적합을 사용하여 승산비 및 신뢰 구간을 계산할 수 있습니다.

예를 들어, 아스피린 복용과 심장마비 간의 관계를 조사하고 다음과 같은 2 X 2 분할표에 대한 승산비 및 승산비에 대한 신뢰 구간을 계산하려고 합니다.
  심장마비 발생 심장마비 미발생
위약 189 10845
아스피린 104 10933
  1. Minitab에서 다음 데이터를 입력합니다.
    C1 C2 C3
    그룹 심장마비 개수
    위약 있음 189
    위약 없음 10845
    아스피린 있음 104
    아스피린 없음 10933
  2. 통계분석 > 회귀 분석 > 이항 로지스틱 회귀 분석 > 이항 로지스틱 모형 적합을 선택합니다.
  3. 반응 변수C2를 입력하고 빈도C3을 입력합니다.
  4. 범주형 예측 변수C1를 입력합니다. 확인을 클릭합니다.

이항 로지스틱 회귀 분석: 심장마비 발생 대 그룹

범주형 예측 변수에 대한 승산비 수준 A 수준 B 승산비 95% CI 그룹 위약 아스피린 1.8321 (1.4400, 2.3308) 수준 B에 상대적인 수준 A에 대한 승산비

승산비는 1.8321입니다. 즉, 위약을 복용하는 사람에게 심장마비가 발생할 승산이 아스피린을 복용하는 사람보다 1.8321배 큽니다. 실제 승산비의 값이 1.44와 2.3308 사이에 있다고 95% 확신할 수 있습니다.

이 예에서는 A. Agresti (1996). An Introduction to Categorical Data Analysis. John Wiley & Sons, Inc의 20페이지에 있는 데이터를 사용했습니다.