이항 로지스틱 회귀 분석에서는 이항 반응/빈도 형식 및 사건/시행 형식 등 두 가지 형식으로 데이터를 입력할 수 있습니다. 출력에 있는 일부 통계량의 신뢰도와 해석은 데이터 형식에 따라 달라집니다. 각 데이터 형식의 사용 시기에 대한 자세한 내용은 이항 로지스틱 회귀 분석에서 각 데이터 형식을 사용할 시기에서 확인하십시오.
이항 로지스틱 회귀 분석의 경우 데이터 형식이 이탈도 R2 및 수정된 이탈도 R2 값을 해석하는 방식에 영향을 미칩니다. 사건/시행 형식의 경우 각 관측치가 해당 데이터 행의 모든 시행에 대한 사건의 확률을 나타냅니다. 일반적으로 이 확률은 많은 시행에 대한 것이고 0과 1 사이이며, 이와 대조적으로 이항 반응/빈도 형식은 일반적으로 1번의 시행만을 나타냅니다. 단일 시행의 관측치는 1 또는 0입니다.
일반적으로 데이터 형식의 차이에 따라 데이터의 총 이탈도가 달라집니다. 사건/시행 데이터의 경우 이탈도는 예측 확률과 관측된 확률 간의 불일치와 관련이 있습니다. 이항 반응/빈도 형식의 경우 이탈도는 예측 확률과 각 시행에 대한 0% 또는 100%의 결과 간의 불일치와 관련이 있습니다. 사건/시행 형식 데이터의 경우 이탈도 R2 및 수정된 이탈도 R2이 일반적으로 더 높습니다.
그래프가 차이를 분명히 나타냅니다. 이 그림에서 기호는 데이터의 관측치를 나타내고 곡선은 모형의 예측 값을 나타냅니다. 사건/시행 데이터의 경우 기호는 선에 가까이 있습니다. 사건/시행 데이터에 대한 이탈도 R2 값은 약 96%입니다. 모형은 평균 확률을 아주 잘 예측합니다.
이항 반응/빈도 데이터의 경우 선이 0% 또는 100%에 가까울 때만 관측치가 예측 선에 가깝습니다. 이항 반응/빈도 데이터에 대한 이탈도 R2 값은 약 56%입니다. 예측 확률과 개별 사례 간의 관계는 그다지 강하지 않습니다.
이항 로지스틱 회귀 분석의 경우 데이터 형식이 이탈도 적합도 검정의 신뢰도에 영향을 미칩니다. 이탈도 적합도 검정에 대한 p-값은 행당 시행 횟수가 감소하면 일반적으로 감소합니다. 이항 반응/빈도 형식의 데이터는 일반적으로 행당 시행 횟수가 적습니다. 따라서 데이터가 이항 반응/형식인 경우 적합치가 좋아도 이탈도 적합도 검정이 좋지 않은 적합치를 나타낼 가능성이 높습니다. 또한 데이터가 사건/시행 형식이지만 행당 시행 횟수가 작은 경우 이탈도 적합도 검정이 좋지 않은 적합치를 잘못 나타낼 가능성이 높습니다.
Hosmer-Lemeshow 검정은 데이터 형식에 종속되지 않습니다. 데이터의 행당 시행 횟수가 작은 경우 Hosmer-Lemeshow 검정이 모형이 데이터를 얼마나 잘 적합하는지 나타내는 더 신뢰할 수 있는 지표입니다.
같은 데이터의 다른 형식에 대한 두 결과 집합을 비교하십시오. 이러한 데이터의 경우 모형 형태가 올바릅니다. Hosmer-Lemeshow 검정의 반응 정보, 계수 및 결과는 같습니다. 이탈도 적합도 검정의 결론은 데이터 형식에 따라 달라집니다.
이 결과에서는 데이터가 빈도 열이 없는 이항 반응/빈도 형식입니다. 분석에서는 500개의 데이터 행을 사용합니다. 각 행은 1번의 시행을 나타냅니다. 0.05의 유의 수준에서 이탈도 적합도 검정에 대한 p-값은 모형이 제대로 적합하지 않는다는 것을 나타냅니다. 이 p-값은 모형 형식이 잘못되었다는 잘못된 결론으로 이어집니다. 이항 반응/빈도 형식의 데이터를 수집하는 경우 일반적으로 이탈도 적합도 검정을 신뢰할 수 없습니다.
이 결과에서는 데이터가 사건/시행 형식입니다. 분석에서는 5개의 데이터 행을 사용합니다. 각 데이터 행은 100번의 시행을 나타냅니다. 0.05의 유의 수준에서 이탈도 적합도 검정에 대한 p-값은 모형이 제대로 적합하지 않는다는 중거를 제공하지 않습니다. 사건/시행 형식의 데이터를 수집하는 경우 일반적으로 이탈도 적합도 검정을 신뢰할 수 있습니다.
이항 로지스틱 회귀 분석의 경우 데이터 형식이 Pearson 적합도 검정의 신뢰도에 영향을 미칩니다. Pearson 검정에서 사용하는 카이-제곱 분포에 대한 근사는 행당 기대되는 사건 수가 작은 경우 부정확합니다. 이항 반응/빈도 형식의 데이터는 일반적으로 행당 시행 횟수가 적습니다. 따라서 데이터가 이항 반응/빈도 형식인 경우 Pearson 적합도 검정이 부정확할 가능성이 높습니다.
Hosmer-Lemeshow 검정은 데이터 형식에 종속되지 않습니다. 데이터의 행당 시행 횟수가 작은 경우 Hosmer-Lemeshow 검정이 모형이 데이터를 얼마나 잘 적합하는지 나타내는 더 신뢰할 수 있는 지표입니다.
같은 데이터의 다른 형식에 대한 두 결과 집합을 비교하십시오. 이러한 데이터의 경우 모형의 형태가 올바르지 않습니다. 실제 모형에는 X1과 X2의 교호작용이 포함됩니다. Hosmer-Lemeshow 검정의 반응 정보, 계수 및 결과는 같습니다. Pearson 적합도 검정의 결론은 데이터 형식에 따라 달라집니다.
이 결과에서는 데이터가 빈도 열이 있는 이항 반응/빈도 형식입니다. 분석에서는 18개의 데이터 행을 사용합니다. 각 행은 250번의 Bernoulli 시행을 나타냅니다. 0.05의 유의 수준에서 Pearson 적합도 검정에 대한 p-값은 모형이 데이터를 적합한다는 것을 나타냅니다. 이 p-값은 모형이 적절하다는 잘못된 결론으로 이어집니다. 이항 반응/빈도 형식의 데이터를 수집하는 경우 Pearson 적합도 검정을 신뢰할 수 없습니다.
이 결과에서는 데이터가 사건/시행 형식입니다. 분석에서는 9개의 데이터 행을 사용합니다. 각 데이터 행은 500번의 시행을 나타냅니다. 0.05의 유의 수준에서 Pearson 적합도 검정에 대한 p-값은 모형이 데이터를 적합하지 않는다는 것을 나타냅니다. 사건/시행 형식의 데이터를 수집하는 경우 일반적으로 Pearson 적합도 검정을 신뢰할 수 있습니다.