카이-제곱 연관성 검정에 대한 데이터 고려 사항

유효한 결과를 얻으려면 데이터를 수집하고 분석을 수행하거나 결과를 해석할 때 다음 지침을 따르십시오.

원시 데이터 또는 요약 데이터 수집
분할표 형식의 두 원시 데이터 또는 요약 데이터 열을 사용할 수 있습니다. 데이터가 빈도 형식이면 교차표 및 카이-제곱 검정을 사용합니다.
참고

결측값은 분할표에 허용되지 않습니다.

표본은 랜덤하게 선택해야 합니다.

X의 각 수준에 대해 공정을 대표하는 품목의 랜덤 표본을 수집합니다. X 변수의 수준은 서로 다른 공정 또는 위치를 대표할 수 있습니다. 예를 들어, 여러 지점에서 송장을 처리하는 경우 각 지점에서 송장 표본을 수집해야 합니다.

랜덤 표본은 모집단에 대한 일반화 또는 추론을 작성하기 위해 사용됩니다. 데이터가 랜덤하게 수집되지 않은 경우에는 결과가 유효하지 않을 수도 있습니다.

각 관측치는 다른 모든 관측치로부터 독립적이어야 합니다.

관측치의 독립성은 연관성의 카이-제곱 검정에 대한 중요한 가정입니다.

데이터가 범주형이어야 함
범주형 변수에는 유한하고 셀 수 있는 수의 범주 또는 고유 그룹이 포함됩니다. 범주형 데이터에는 논리적 순서가 없을 수도 있습니다. 예를 들어, 범주형 예측 변수에는 성별, 재료 유형, 결제 방법이 포함됩니다.
모든 데이터를 겹치지 않도록 서로 배타적인 범주로 분류해야 함

변수 범주가 겹치는 경우 카이-제곱 연관성 검정을 수행할 수 없습니다. 그러므로, 각 관측치를 하나의 범주로만 분류해야 합니다.

기대 카운트가 너무 작지 않아야 합니다.
각 표본은 모든 범주의 결과를 합리적으로 관측할 수 있을 만큼 충분히 커야 합니다. 기대 카운트가 너무 낮으면 검정의 p-값이 정확하지 않을 수 있습니다. 기대 카운트가 너무 낮은지 여부를 확인하고 검정의 유효성을 보장하기 위해 각 표본이 얼마나 커야 하는지 나타냅니다.
한 범주에 대한 기대 카운트가 너무 작으면 해당 범주를 인접 범주와 결합하여 최소 기대 카운트를 얻지 못할 수도 있습니다. 범주를 결합하면 정보가 손실되므로 필요한 경우에만 범주를 결합해야 합니다.