분할표는 여러 개의 범주형 변수를 기준으로 관측치를 기록하는 표입니다. 표의 행과 열들이 이러한 범주형 변수들에 해당됩니다.
예를 들어, 후보자가 두 명인 최근 선거에서 출구 조사를 통해 유권자 100명의 성별과 투표 내용을 기록하고 다음과 같이 데이터를 표로 정리했습니다.
A 후보 | B 후보 | 모두 | |
---|---|---|---|
남성 | 28 | 20 | 48 |
여성 | 39 | 13 | 52 |
모두 | 67 | 33 | 100 |
이 분할표에는 성별 반응 및 투표 내용이 기록됩니다. i행과 j열이 교차하는 위치의 카운트는 nij로 표시되며, 해당 수준의 조합에 해당하는 관측치의 수를 나타냅니다. 예를 들어, n1,2는 B 후보에게 투표한 남성 응답자의 수를 나타냅니다.
이 표에는 변수의 각 수준에 대한 주변 총계도 포함됩니다. 행의 주변 총계는 응답자 중 52명이 여성임을 나타냅니다. 열의 주변 총계는 응답자 중 67명이 A 후보에게 투표했음을 보여줍니다. 또한 전체 총계는 표본 크기가 100임을 나타냅니다.
분할표는 두 변수 간의 연관성도 나타냅니다. 카이-제곱 검정이나 Fisher의 정확 검정을 사용하여 아무런 연관성도 없다는 귀무 가설의 기대 카운트와 관측치 카운트 사이에 유의한 차이가 있는지 검사할 수 있습니다. 예를 들어, 성별과 투표 간에 연관성의 존재 여부를 검정할 수 있습니다.
가장 간단한 분할표는 두 변수의 반응값을 기록하는 이원 표입니다. 세 개 이상의 변수를 "교차"함으로써 세 개 이상의 변수에 따라 관측치를 분류할 수 있습니다. 위의 투표 예에서 다음과 같이 고용 상태에 따라 반응값을 분류할 수도 있습니다.
A 후보 | B 후보 | 합계 | |
---|---|---|---|
남성 / 취업 | 18 | 19 | 37 |
남성 / 미취업자 | 10 | 1 | 11 |
여성 / 취업 | 33 | 10 | 43 |
여성 / 미취업자 | 6 | 3 | 9 |
합계 | 67 | 33 | 100 |
단순 대응 분석을 통해 세 개 이상의 변수를 사용하여 데이터가 분류되는 분할표의 연관성 존재 여부를 검증할 수 있습니다. Minitab에서 단순 대응 분석을 수행하려면
을 선택하십시오.을 사용하여 승산비 및 신뢰 구간을 계산할 수 있습니다.
심장마비 발생 | 심장마비 미발생 | |
---|---|---|
위약 | 189 | 10845 |
아스피린 | 104 | 10933 |
C1 | C2 | C3 |
---|---|---|
그룹 | 심장마비 | 개수 |
위약 | 있음 | 189 |
위약 | 없음 | 10845 |
아스피린 | 있음 | 104 |
아스피린 | 없음 | 10933 |
승산비는 1.8321입니다. 즉, 위약을 복용하는 사람에게 심장마비가 발생할 승산이 아스피린을 복용하는 사람보다 1.8321배 큽니다. 실제 승산비의 값이 1.44와 2.3308 사이에 있다고 95% 확신할 수 있습니다.
이 예에서는 A. Agresti (1996). An Introduction to Categorical Data Analysis. John Wiley & Sons, Inc의 20페이지에 있는 데이터를 사용했습니다.