이항 로지스틱 모형 적합에 대한 주요 결과 해석

이항 로지스틱 모형을 해석하려면 다음 단계를 수행하십시오. 주요 결과에는 p-값, 계수, R2 및 적합도 검정이 포함됩니다.

1단계: 반응과 항 간의 연관성이 통계적으로 유의한지 여부 확인

반응과 모형의 각 항 간의 연관성이 통계적으로 유의한지 여부를 확인하려면 항에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 항과 반응 간에 연관성이 없다는 것입니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시됨)이 적절합니다. 0.05의 유의 수준은 실제로 연관성이 없는데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다.
p-값 ≤ α: 연관성이 통계적으로 유의함
p-값이 유의 수준보다 작거나 같으면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않음
p-값이 유의 수준보다 크면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다. 항 없이 모형을 다시 적합시킬 수도 있습니다.
반응과 통계적으로 유의한 연관성이 없는 예측 변수가 여러 개 있는 경우 한 번에 하나씩 항을 줄여 모형을 축소할 수 있습니다. 모형에서 항을 제거하는 방법은 모형 축소에서 확인하십시오.
모형 항이 통계적으로 유의하면 해석은 항의 유형에 따라 다릅니다. 해석은 다음과 같습니다.
  • 계량형 예측 변수가 유의하면 예측 변수에 대한 계수가 0이 아니라는 결론을 내릴 수 있습니다.
  • 범주형 예측 변수가 유의하면 요인의 모든 수준의 확률이 동일하지는 않다는 결론을 내릴 수 있습니다.
  • 교호작용 항이 유의하면 예측 변수와 사건 확률 간의 관계가 항의 다른 예측 변수에 따라 다르다는 결론을 내릴 수 있습니다.
  • 다항식 항이 유의하면 예측 변수와 사건 확률 간의 관계가 예측 변수 크기에 따라 다르다는 결론을 내릴 수 있습니다.

분산 분석



Wald 검정
출처DF카이-제곱P-값
회귀17.830.005
  투여량(mg)17.830.005

계수

계수SE 계수Z-값P-값VIF
상수-5.251.99-2.640.008 
투여량(mg)3.631.302.800.0051.00
주요 결과: p-값, 계수

이 결과에서는 복용량이 유의 수준 0.05에서 통계적으로 유의합니다. 복용량의 변화가 사건 발생 확률의 변화와 연관되어 있다고 결론을 내릴 수 있습니다.

예측 변수가 변화함에 따라 사건이 발생할 확률이 증가하는지 또는 감소하는지 여부를 확인하려면 계수를 평가합니다. 계수와 확률 간의 관계는 연결 함수를 포함하여 분석의 여러 측면에 종속됩니다. 일반적으로 계수가 양수이면 예측 변수가 증가함에 따라 사건 발생 확률이 증가한다는 것을 나타냅니다. 계수가 음수이면 예측 변수가 증가함에 따라 사건 발생 확률이 감소한다는 것을 나타냅니다. 자세한 내용은 이항 로지스틱 모형 적합에 대한 계수 및 회귀 방정식에서 확인하십시오.

복용량에 대한 계수는 3.63으로, 높은 복용량이 높은 것은 사건 발생 확률과 연관되어 있다는 것을 나타냅니다.

교호작용 항이 통계적으로 유의하면 예측 변수와 반응 간의 관계가 다른 예측 변수의 수준별로 다릅니다. 이 경우에는 교호작용 효과를 고려하지 않고 주효과를 해석해서는 안 됩니다. 모형의 주효과, 교호작용 효과, 곡면성에 대한 자세한 내용은 요인 그림반응 최적화 도구에서 확인하십시오.

2단계: 예측 변수의 효과 이해

예측 변수의 효과를 이해하려면 승산비를 사용합니다. 승산비에 대한 해석은 예측 변수가 범주형인지 아니면 계량형인 지에 따라 달라집니다. 모형에서 로짓 연결 함수를 사용하는 경우 Minitab에서는 승산비를 계산합니다.
계량형 예측 변수에 대한 승산비

승산비가 1보다 크면 예측 변수가 증가함에 따라 사건 발생 확률이 증가한다는 것을 나타냅니다. 승산비가 1보다 작으면 예측 변수가 증가함에 따라 사건 발생 확률이 감소한다는 것을 나타냅니다.

계량형 예측 변수에 대한 승산비

변경 단위승산비95% CI
투여량(mg)0.56.1279(1.7218, 21.8087)
주요 결과: 승산비

이 결과에서 모형은 한 약품의 투여량 수준을 사용하여 성인의 박테리아 존재 여부를 예측합니다. 이 예에서 박테리아의 존재는 사건입니다. 각 약에는 0.5mg의 투여량이 포함되어 있으며, 따라서 연구자들은 0.5mg의 단위 변화를 사용합니다. 승산비는 약 6입니다. 성인이 약 하나를 추가로 복용할 때마다 환자에게 박테리아가 없을 확률은 약 6배 증가합니다.

범주형 예측 변수에 대한 승산비

범주형 예측 변수의 경우 승산비는 예측 변수의 서로 다른 2개 수준에서 사건이 발생할 확률을 비교합니다. Minitab에서는 수준 A와 수준 B, 두 열에 수준을 나열하여 비교를 설정합니다. 수준 B는 요인에 대한 기준 수준입니다. 승산비가 1보다 크면 수준 B에서 사건 발생 확률이 증가한다는 것을 나타냅니다. 승산비가 1보다 작으면 수준 B에서 사건 발생 확률이 감소한다는 것을 나타냅니다. 범주형 예측 변수의 코드화에 대한 자세한 내용은 범주형 예측 변수의 코드화 방법에서 확인하십시오.

이항 로지스틱 회귀 분석: Cancellation 대 월

범주형 예측 변수에 대한 승산비

수준 A수준 B승산비95% CI
     
  211.1250(0.0600, 21.0834)
  313.3750(0.2897, 39.3165)
  417.7143(0.7461, 79.7592)
  512.2500(0.1107, 45.7172)
  616.0000(0.5322, 67.6397)
  323.0000(0.2547, 35.3325)
  426.8571(0.6556, 71.7169)
  522.0000(0.0976, 41.0019)
  625.3333(0.4679, 60.7946)
  432.2857(0.4103, 12.7323)
  530.6667(0.0514, 8.6389)
  631.7778(0.2842, 11.1200)
  540.2917(0.0252, 3.3719)
  640.7778(0.1464, 4.1326)
  652.6667(0.2124, 33.4861)
수준 B에 상대적인 수준 A에 대한 승산비
주요 결과: 승산비

이 결과에서 범주형 예측 변수는 호텔의 성수기가 시작된 이후의 달입니다. 반응은 투숙객이 예약을 취소하느냐 여부입니다. 이 예에서는 취소가 사건입니다. 최대 승산비는 수준 A가 월 4이고 수준 B가 월 1일 때 약 7.71입니다. 이는 월 4에 투숙객이 예약을 취소할 확률이 월 1에 예약을 취소할 확률보다 약 8배 높다는 것을 나타냅니다.

자세한 내용은 이항 로지스틱 모형 적합에 대한 승산비에서 확인하십시오.

3단계: 모형이 데이터를 얼마나 잘 적합시키는지 확인

모형이 데이터를 얼마나 잘 적합시키는지 확인하려면 모형 요약 표의 통계량을 조사하십시오.

많은 모형 요약 및 적합도 통계량은 워크시트에서 데이터가 배열되는 방식 및 행당 시행 횟수에 영향을 받습니다. Hosmer-Lemeshow 검정은 데이터 형식의 영향을 받지 않으며 형식 간에 유사합니다. 자세히 알려면 이항 로지스틱 회귀 분석에서 데이터 형식이 적합도에 미치는 영향(으)로 이동하십시오.

이탈도 R-제곱

이탈도 결정계수가 클수록 모형이 데이터를 더 잘 적합시킵니다. 이탈도 결정계수는 항상 0%에서 100% 사이입니다.

모형에 예측 변수를 추가하면 이탈도 결정계수는 항상 증가합니다. 예를 들어, 최량 예측 변수가 5개인 모형은 최량 예측 변수가 4개인 모형보다 항상 결정계수 값이 큽니다. 따라서 이탈도 결정계수는 같은 크기의 모형을 비교할 때 가장 유용합니다.

이항 로지스틱 회귀 분석의 경우, 데이터 형식이 이탈도 R2 값에 영향을 미칩니다. 사건/시행 형식 데이터의 경우 일반적으로 이탈도 결정계수가 더 높습니다. 이탈도 결정계수 값은 동일한 데이터 형식을 사용하는 모형 간에만 유사합니다.

적합도 통계량은 모형이 데이터를 얼마나 잘 적합시키는 지에 대한 하나의 측도에 지나지 않습니다. 모형에 바람직한 값이 있더라도 해당 모형이 데이터를 충족하는지 확인하려면 잔차 그림 및 적합도 검정을 확인해야 합니다.

이탈도 R-제곱(수정)

예측 변수 수가 다른 여러 모형을 비교하려면 수정 이탈도 결정계수를 사용하십시오. 모형에 예측 변수를 추가하면 이탈도 결정계수는 항상 증가합니다. 수정 이탈도 결정계수 값은 모형의 예측 변수 수에 통합되어 올바른 모형을 선택하는 데 유용합니다.

AIC, AICc 및 BIC

여러 모형을 비교하려면 AIC, AICc 및 BIC를 사용합니다. 각 통계량에 대해 작은 값을 사용하는 것이 바람직합니다. 그러나 예측 변수 집합에 대한 값이 가장 작은 모형이 반드시 데이터를 잘 적합시키는 것은 아닙니다. 모형이 데이터를 얼마나 잘 적합시키는지 평가하려면 적합도 검정과 잔차 그림도 사용하십시오.

ROC 곡선 아래 면적

ROC 곡선 아래 면적 값은 0.5에서 1 사이입니다. 이항 모형이 클래스를 완벽하게 구분할 수 있는 경우 곡선 아래의 면적은 1입니다. 이항 모형이 임의 할당보다 클래스를 더 잘 구분할 수 없는 경우 곡선 아래의 면적은 0.5입니다.

모형 요약

이탈도 R-Sq이탈도 R-Sq(수정)AICAICcBICROC 곡선 아래 면적
96.04%91.81%10.6314.6310.220.9398
주요 결과: 이탈도 결정계수, 이탈도 결정계수(수정), AIC, ROC 곡선 아래 면적

이 결과에서 모형은 반응 변수에 있는 총 이탈도의 96.04%를 설명합니다. 이러한 데이터의 경우 이탈도 결정계수 값은 모형이 데이터를 잘 적합시킨다는 것을 나타냅니다. ROC 곡선 아래 면적은 0.9398입니다. 이 값은 모형이 많은 데이터를 올바르게 분류함을 나타냅니다. 다른 예측 변수를 사용하여 추가 모형이 적합되는 경우 수정 이탈도 결정계수 값, AIC 값, AICc 값 및 BIC 값, ROC 곡선 아래 면적을 사용하여 모형들이 데이터를 얼마나 잘 적합시키는지 비교하십시오.

4단계: 모형이 데이터에 적합하지 않는지 여부 확인

적합도 검정은 예측 확률이 이항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어나는지 확인하기 위해 사용합니다. 적합도 검정의 p-값이 선택한 유의 수준보다 낮으면 예측 확률이 이항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어남을 의미합니다. 다음 리스트에는 이러한 편차의 일반적인 이유가 나와 있습니다.
  • 잘못된 연결 함수
  • 모형에 있는 변수에 대한 고차 항 제외됨
  • 모형에 없는 예측 변수 제외됨
  • 과대산포

편차가 통계적으로 유의한 경우 다른 연결 함수를 사용하거나 모형의 항을 변경할 수 있습니다.

이항 로지스틱 분석의 경우, 데이터 형식이 행당 시행 횟수를 변경하기 때문에 p-값에 영향을 미칩니다.

  • 이탈도: 이탈도 검정에 대한 p-값은 이항 반응/빈도 형식 데이터의 경우 사건/시행 형식 데이터에 비해 더 낮은 경향이 있습니다. 이항 반응/빈도 형식 데이터의 경우 Hosmer-Lemeshow 결과를 더 신뢰할 수 있습니다.
  • Pearson: Pearson 검정에서 사용하는 카이-제곱 분포에 대한 근사는 데이터의 행당 기대되는 사건 수가 작은 경우 부정확합니다. 그러므로, 데이터가 이항 반응/빈도 형식인 경우 Pearson 적합도 검정이 부정확합니다.
  • Hosmer-Lemeshow: Hosmer-Lemeshow 검정은 다른 적합도 검정처럼 데이터의 행당 시행 횟수에 종속되지 않습니다.데이터의 행당 시행 횟수가 적을수록 모형이 데이터를 얼마나 잘 적합시키는 지에 대해 Hosmer-Lemeshow 검정을 더 신뢰할 수 있습니다.

반응 정보

변수카운트사건 이름
사건사건160사건
  비사건340 
시행총계500 

적합도 검정

검정DF카이-제곱P-값
이탈도23.780.151
Pearson23.760.152
Hosmer-Lemeshow33.760.288
사건/시행 형식에 대한 주요 결과: 반응 정보, 이탈도 검정, Pearson 검정, Hosmer-Lemeshow 검정

이 결과에서 반응 정보 표의 변수 열에 사건 및 시행이 표시됩니다. 이러한 레이블은 데이터가 사건/시행 형식이라는 것을 나타냅니다. 모든 적합도 검정의 p-값이 일반적인 유의 수준 0.05보다 높습니다. 검정은 예측 확률이 이항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어난다는 증거를 제공하지 않습니다.

반응 정보

변수카운트
Y사건160(사건)
  비사건340 
  총계500 

적합도 검정

검정DF카이-제곱P-값
이탈도497552.030.044
Pearson497504.420.399
Hosmer-Lemeshow33.760.288
이항 반응/빈도 형식에 대한 주요 결과: 반응 정보, 이탈도 검정, Pearson 검정, Hosmer-Lemeshow 검정

동일한 데이터에 대한 이 결과에서 반응 정보 표의 변수 열에 Y가 표시됩니다. 이 레이블은 데이터가 이항 반응/빈도 형식이라는 것을 나타냅니다. 이탈도 검정의 p-값이 일반적인 유의 수준 0.05보다 작지만, Hosmer-Lemeshow 검정이 가장 신뢰할 수 있는 검정입니다. Hosmer-Lemeshow 검정은 예측 확률이 이항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어난다는 증거를 제공하지 않습니다.