이항 로지스틱 회귀 분석에서 데이터 형식이 적합도에 미치는 영향

이 항목의 내용

이탈도 R² 및 수정된 이탈도 R²의 해석에 대한 데이터 형식의 영향
이항 반응/빈도 데이터의 경우 이탈도 적합도 검정이 잘못된 결과를 초래할 수 있는 이유
이항 반응/빈도 데이터의 경우 Pearson 적합도 검정이 잘못된 결과를 초래할 수 있는 이유

이항 로지스틱 회귀 분석에서는 이항 반응/빈도 형식 및 사건/시행 형식 등 두 가지 형식으로 데이터를 입력할 수 있습니다. 출력에 있는 일부 통계량의 신뢰도와 해석은 데이터 형식에 따라 달라집니다. 각 데이터 형식의 사용 시기에 대한 자세한 내용은 이항 로지스틱 회귀 분석에서 각 데이터 형식을 사용할 시기에서 확인하십시오.

이탈도 R² 및 수정된 이탈도 R²의 해석에 대한 데이터 형식의 영향

이항 로지스틱 회귀 분석의 경우 데이터 형식이 이탈도 R² 및 수정된 이탈도 R² 값을 해석하는 방식에 영향을 미칩니다. 사건/시행 형식의 경우 각 관측치가 해당 데이터 행의 모든 시행에 대한 사건의 확률을 나타냅니다. 일반적으로 이 확률은 많은 시행에 대한 것이고 0과 1 사이이며, 이와 대조적으로 이항 반응/빈도 형식은 일반적으로 1번의 시행만을 나타냅니다. 단일 시행의 관측치는 1 또는 0입니다.

일반적으로 데이터 형식의 차이에 따라 데이터의 총 이탈도가 달라집니다. 사건/시행 데이터의 경우 이탈도는 예측 확률과 관측된 확률 간의 불일치와 관련이 있습니다. 이항 반응/빈도 형식의 경우 이탈도는 예측 확률과 각 시행에 대한 0% 또는 100%의 결과 간의 불일치와 관련이 있습니다. 사건/시행 형식 데이터의 경우 이탈도 R² 및 수정된 이탈도 R²이 일반적으로 더 높습니다.

그래프가 차이를 분명히 나타냅니다. 이 그림에서 기호는 데이터의 관측치를 나타내고 곡선은 모형의 예측 값을 나타냅니다. 사건/시행 데이터의 경우 기호는 선에 가까이 있습니다. 사건/시행 데이터에 대한 이탈도 R² 값은 약 96%입니다. 모형은 평균 확률을 아주 잘 예측합니다.

이항 반응/빈도 데이터의 경우 선이 0% 또는 100%에 가까울 때만 관측치가 예측 선에 가깝습니다. 이항 반응/빈도 데이터에 대한 이탈도 R² 값은 약 56%입니다. 예측 확률과 개별 사례 간의 관계는 그다지 강하지 않습니다.

이항 반응/빈도 데이터의 경우 이탈도 적합도 검정이 잘못된 결과를 초래할 수 있는 이유

이항 로지스틱 회귀 분석의 경우 데이터 형식이 이탈도 적합도 검정의 신뢰도에 영향을 미칩니다. 이탈도 적합도 검정에 대한 p-값은 행당 시행 횟수가 감소하면 일반적으로 감소합니다. 이항 반응/빈도 형식의 데이터는 일반적으로 행당 시행 횟수가 적습니다. 따라서 데이터가 이항 반응/형식인 경우 적합치가 좋아도 이탈도 적합도 검정이 좋지 않은 적합치를 나타낼 가능성이 높습니다. 또한 데이터가 사건/시행 형식이지만 행당 시행 횟수가 작은 경우 이탈도 적합도 검정이 좋지 않은 적합치를 잘못 나타낼 가능성이 높습니다.

Hosmer-Lemeshow 검정은 데이터 형식에 종속되지 않습니다. 데이터의 행당 시행 횟수가 작은 경우 Hosmer-Lemeshow 검정이 모형이 데이터를 얼마나 잘 적합하는지 나타내는 더 신뢰할 수 있는 지표입니다.

같은 데이터의 다른 형식에 대한 두 결과 집합을 비교하십시오. 이러한 데이터의 경우 모형 형태가 올바릅니다. Hosmer-Lemeshow 검정의 반응 정보, 계수 및 결과는 같습니다. 이탈도 적합도 검정의 결론은 데이터 형식에 따라 달라집니다.

이 결과에서는 데이터가 빈도 열이 없는 이항 반응/빈도 형식입니다. 분석에서는 500개의 데이터 행을 사용합니다. 각 행은 1번의 시행을 나타냅니다. 0.05의 유의 수준에서 이탈도 적합도 검정에 대한 p-값은 모형이 제대로 적합하지 않는다는 것을 나타냅니다. 이 p-값은 모형 형식이 잘못되었다는 잘못된 결론으로 이어집니다. 이항 반응/빈도 형식의 데이터를 수집하는 경우 일반적으로 이탈도 적합도 검정을 신뢰할 수 없습니다.

이항 로지스틱 회귀 분석: Y 대 X

방법 연결 함수 로짓 사용된 행 500

반응 정보 변수 값 카운트 Y 사건 160 (사건) 비사건 340 총계 500

계수 항 계수 SE 계수 VIF 상수 -2.107 0.282 X 0.0904 0.0121 11.97 X*X -0.000889 0.000115 11.97

적합도 검정 검정 DF 카이-제곱 P-값 이탈도 497 552.03 0.044 Pearson 497 504.42 0.399 Hosmer-Lemeshow 3 3.76 0.288

이 결과에서는 데이터가 사건/시행 형식입니다. 분석에서는 5개의 데이터 행을 사용합니다. 각 데이터 행은 100번의 시행을 나타냅니다. 0.05의 유의 수준에서 이탈도 적합도 검정에 대한 p-값은 모형이 제대로 적합하지 않는다는 중거를 제공하지 않습니다. 사건/시행 형식의 데이터를 수집하는 경우 일반적으로 이탈도 적합도 검정을 신뢰할 수 있습니다.

이항 로지스틱 회귀 분석: 사건 대 X

방법 연결 함수 로짓 사용된 행 5

반응 정보 사건 변수 값 카운트 이름 사건 사건 160 사건 비사건 340 시행 총계 500

계수 항 계수 SE 계수 VIF 상수 -2.107 0.282 X 0.0904 0.0121 11.97 X*X -0.000889 0.000115 11.97

적합도 검정 검정 DF 카이-제곱 P-값 이탈도 2 3.78 0.151 Pearson 2 3.76 0.152 Hosmer-Lemeshow 3 3.76 0.288

이항 반응/빈도 데이터의 경우 Pearson 적합도 검정이 잘못된 결과를 초래할 수 있는 이유

이항 로지스틱 회귀 분석의 경우 데이터 형식이 Pearson 적합도 검정의 신뢰도에 영향을 미칩니다. Pearson 검정에서 사용하는 카이-제곱 분포에 대한 근사는 행당 기대되는 사건 수가 작은 경우 부정확합니다. 이항 반응/빈도 형식의 데이터는 일반적으로 행당 시행 횟수가 적습니다. 따라서 데이터가 이항 반응/빈도 형식인 경우 Pearson 적합도 검정이 부정확할 가능성이 높습니다.

같은 데이터의 다른 형식에 대한 두 결과 집합을 비교하십시오. 이러한 데이터의 경우 모형의 형태가 올바르지 않습니다. 실제 모형에는 X1과 X2의 교호작용이 포함됩니다. Hosmer-Lemeshow 검정의 반응 정보, 계수 및 결과는 같습니다. Pearson 적합도 검정의 결론은 데이터 형식에 따라 달라집니다.

이 결과에서는 데이터가 빈도 열이 있는 이항 반응/빈도 형식입니다. 분석에서는 18개의 데이터 행을 사용합니다. 각 행은 250번의 Bernoulli 시행을 나타냅니다. 0.05의 유의 수준에서 Pearson 적합도 검정에 대한 p-값은 모형이 데이터를 적합한다는 것을 나타냅니다. 이 p-값은 모형이 적절하다는 잘못된 결론으로 이어집니다. 이항 반응/빈도 형식의 데이터를 수집하는 경우 Pearson 적합도 검정을 신뢰할 수 없습니다.

이항 로지스틱 회귀 분석: Y 대 X1, X2

방법 연결 함수 로짓 빈도 빈도 사용된 행 18

반응 정보 변수 값 카운트 Y 예 2645 (사건) 아니요 1855 총계 4500

계수 항 계수 SE 계수 VIF 상수 -0.612 0.110 X1 0.1585 0.0375 1.00 X2 0.3290 0.0377 1.00

적합도 검정 검정 DF 카이-제곱 P-값 이탈도 4497 6004.05 0.000 Pearson 4497 4504.84 0.464 Hosmer-Lemeshow 7 66.06 0.000

이 결과에서는 데이터가 사건/시행 형식입니다. 분석에서는 9개의 데이터 행을 사용합니다. 각 데이터 행은 500번의 시행을 나타냅니다. 0.05의 유의 수준에서 Pearson 적합도 검정에 대한 p-값은 모형이 데이터를 적합하지 않는다는 것을 나타냅니다. 사건/시행 형식의 데이터를 수집하는 경우 일반적으로 Pearson 적합도 검정을 신뢰할 수 있습니다.

이항 로지스틱 회귀 분석: Y 대 X1, X2

방법 연결 함수 로짓 사용된 행 9

반응 정보 사건 변수 값 카운트 이름 Y 사건 2645 예 비사건 1855 시행 총계 4500

계수 항 계수 SE 계수 VIF 상수 -0.612 0.110 X1 0.1585 0.0375 1.00 X2 0.3290 0.0377 1.00

적합도 검정 검정 DF 카이-제곱 P-값 이탈도 6 67.48 0.000 Pearson 6 66.06 0.000 Hosmer-Lemeshow 7 66.06 0.000

이항 로지스틱 회귀 분석에서 데이터 형식이 적합도에 미치는 영향

이 항목의 내용

이탈도 R2 및 수정된 이탈도 R2의 해석에 대한 데이터 형식의 영향

이항 반응/빈도 데이터의 경우 이탈도 적합도 검정이 잘못된 결과를 초래할 수 있는 이유

이항 로지스틱 회귀 분석: Y 대 X

이항 로지스틱 회귀 분석: 사건 대 X

이항 반응/빈도 데이터의 경우 Pearson 적합도 검정이 잘못된 결과를 초래할 수 있는 이유

이항 로지스틱 회귀 분석: Y 대 X1, X2

이항 로지스틱 회귀 분석: Y 대 X1, X2

이탈도 R² 및 수정된 이탈도 R²의 해석에 대한 데이터 형식의 영향