ROC(수신기 검사 특성) 곡선

이 매크로는 모형이 얼마나 잘 수행되는지 평가하기 위해 이항 로지스틱(BLR) 회귀 분석에 대한 추가 분석으로 세 가지 함수를 수행합니다.
  1. 분류 표를 생성합니다.
  2. ROC(수신기 검사 특성) 곡선을 생성합니다.
  3. 주어진 사건 확률에서 예측 변수 값의 고유 집합의 첫 번째 인스턴스뿐만 아니라 각 행에 대한 사건 확률도 저장합니다.

매크로 다운로드

Minitab에서 다운로드한 매크로의 위치를 지정해야 합니다. 도구 > 옵션 > 일반을 선택합니다. 매크로 위치에서 매크로 파일을 저장하는 위치로 이동합니다.

중요

기존 웹 브라우저를 사용하는 경우 다운로드 단추를 클릭하면 Minitab 매크로와 .mac 파일 확장자를 공유하는 Quicktime에서 해당 파일을 열 수 있습니다. 매크로를 저장하려면 다운로드 단추를 마우스 오른쪽 단추로 클릭하고 다른 이름으로 대상 저장을 선택합니다.

필수 입력

  • 반응/빈도 형식의 이항 반응 변수
  • 하나 이상의 예측 변수 열
  • 데이터에 대해 이미 수행된 이항 로지스틱 회귀 분석에서 계산된 사건 확률의 열
참고

이항 로지스틱 회귀 분석에서 계산된 사건 확률을 저장하려면 주 대화 상자에서 저장을 클릭하고 사건 확률을 선택합니다.

선택적 입력

FREQ C
이항 로지스틱 회귀 분석을 실행할 때 빈도 열을 지정한 경우 사용합니다. 예를 들어, C4를 빈도 열로 지정한 경우 FREQ C4를 제출해야 합니다.
REFEVENT "텍스트"
이항 로지스틱 회귀 분석을 실행할 때 기준 사건을 지정한 경우 사용합니다. 예를 들어, 이항 반응 변수에 "합격"과 "실패" 값이 포함되고 기준 사건을 "합격"으로 설정하는 경우, REFEVENT "합격"을 제출해야 합니다.
FITSTORE C
분류 표 생성에 사용되는 적합치를 저장하는 열을 지정하기 위해 사용합니다. 이항 로지스틱 회귀 분석에서 관측치의 적합치는 해당 관측치의 사건 확률이 0.5보다 크거나 같은 경우, 기준 사건과 같습니다.
ROCSTORE C C C
ROC 곡선을 생성하기 위해 사용되는 데이터를 저장하기 위해 사용합니다. p 값을 저장하기 위한 열 1개, 각 p 값에 대한 민감도와 특수성을 저장하기 위한 열 2개 등, 3개의 열을 지정합니다. (ROC 곡선은 민감도 대 1 - 특수성을 그래프로 표시합니다.)

매크로 실행

이항 반응 변수가 C3 열에 있고 두 예측 변수가 C1과 C2 열에 있다고 가정합니다. 사건 확률은 C5에 저장됩니다. 이 매크로를 실행하려면 편집 > 명령줄 편집기를 선택하고 다음을 입력합니다.

%ROCBLR C3;
MODEL C1 C2;
EPRO C5.

명령 제출을 클릭합니다.

추가 정보

분류 표 및 ROC 곡선

이항 로지스틱 회귀 분석 모형 적합성의 한 가지 측도는, 모형에 항(예측 변수)의 값이 있는 경우 이항 반응을 정확하게 예측할 수 있는 능력입니다. 이 능력은 적합된 모형이 두 반응 값 각각에 대해 반응을 올바르게 분류하는 횟수를 표로 정리하는 분류 표에 요약할 수 있습니다.

Minitab 도움말의 '이항 로지스틱 회귀 분석의 예' 항목을 참조하십시오. 이 예에서는 반응이 '휴식기 맥박'(높음 또는 낮음)이고 예측 변수가 체중(계량형 변수) 및 흡연(값이 '예' 또는 '아니오'인 범주형 변수)인 이항 로지스틱 회귀 분석 모형을 적합합니다.

데이터 집합에서 한 사람은 비흡연자이고 체중이 175파운드입니다. 이 사람이 휴식기 맥박이 높을 것인지 또는 낮을 것인지 여부를 예측하기 위해 이 사람의 체중 및 흡연 여부(흡연 - 1, 비흡연 - 0)가 분석에서 생성된 회귀 방정식에 "연결"됩니다. 이 예에서는 "낮음"이 기준 사건이기 때문에 낮은 휴식기 맥박을 가질 추정 확률이 결과로 생성됩니다.

다시 말하면 주어진 추정 계수에서 체중이 175파운드인 비흡연자의 휴식기 맥박이 낮을 확률은 92%로 추정됩니다. 이것이 사건 확률입니다. 이 확률이 이렇게 높기 때문에 이 관측치를 "낮음"으로 분류할 수도 있습니다. 추정된 확률을 취하고 두 값 중 하나로 분류합니다. 또한 특정 사람의 관측된 실제 휴식기 맥박이 낮았습니다. 따라서 모형은 이 개인의 휴식기 맥박을 정확히 예측했습니다.

데이터 집합의 모든 다른 관측치에 대해 동일한 작업을 수행할 수 있지만, 먼저 사건 확률을 어디서 "절사"할 것인지 결정해야 합니다. 가장 분명한 절사 값은 0.5입니다. 데이터 집합의 모든 관측치에 대해 사건 확률이 0.5보다 큰 경우 휴식기 맥박을 "낮음"으로 분류하고 사건 확률이 0.5보다 작은 경우 휴식기 맥박을 "높음"으로 분류한다고 말할 수 있습니다.

마지막으로, 예측된 휴식기 맥박을 실제 휴식기 맥박과 비교하고 이러한 결과를 분류 표로 정리할 수 있습니다(표시되지 않음).

표를 보면 휴식기 맥박이 낮지만 사건 확률이 0.5보다 큰 사람이 68명 있다는 것을 알 수 있습니다(즉, 분류가 정확함). 또한 휴식기 맥박이 낮지만 사건 확률이 0.5보다 작은 사람이 2명 있었습니다(즉, 분류가 부정확함). 마찬가지로, 휴식기 맥박이 높고 모형에서 예측된 휴식기 맥박을 정확히 분류한 사람이 2명 있었습니다. 그러나 휴식기 맥박이 높지만 모형에서 예측된 휴식기 맥박을 낮음으로 분류한 사람도 20명 있었습니다. 따라서 모형이 휴식기 맥박을 낮음으로 예측하는 쪽으로 기운다는 결론을 내릴 수 있습니다.

모형의 정확도를 요약하는 데 도움이 되는 다른 두 통계량은 민감도와 특수성입니다. 민감도는 개인의 실제 휴식기 맥박이 낮은 경우 모형이 낮은 휴식기 맥박을 얼마나 잘 예측하는지 측정합니다. 특수성은 개인의 실제 휴식기 맥박이 높은 경우, 모형이 높은 휴식기 맥박을 얼마나 잘 예측하는지 측정합니다. 두 통계량 모두 값이 높을수록 모형에서 관측치를 더 잘 분류합니다.

이 예에서 민감도는 68 /70 ≅ 97%이고 특수성은 2/22 ≅ 9%입니다.

그러나 분류 표는 분류 표에 포함된 관측치의 분포에 따라 크게 좌우되므로 분류 표가 올바르지 않을 수 있습니다. 분류 표에 내재된 문제에 대해서는 Hosmer and Lemeshow의 Applied Logistic Regression에 자세히 설명되어 있습니다.

이항 로지스틱 회귀 분석 모형에서 관측치를 정확하게 분류할 수 있는 능력을 평가하기에 더 좋은 방법은 ROC(수신기 검사 특성) 곡선입니다. ROC 곡선은 0 - 1 범위의 절사 값에 대해 여러 분류 표를 생성하고 각 값에 대해 민감도와 특수성을 계산함으로써 구성됩니다. ROC 곡선을 구성하기 위해 1 - 특수성에 대해 민감도가 그래프로 표시됩니다.

AUC(ROC 곡선 아래의 면적)는 판별력의 측도로, ROC 곡선 아래의 면적이 넓은 모형은 모형이 관측치 반응의 값을 정확하게 예측할 수 있다는 것을 나타냅니다.

Hosmer and Lemeshow가 AUC 값을 해석하기 위한 일반적인 규칙을 제공합니다. 이 규칙은 아래와 같은 일반적인 지침으로 표현할 수 있습니다.

AUC = 0.5 판별력 없음(즉, 동전 던지기가 나을 수 있음)
0.7 ≤ AUC < 0.8 허용 가능한 판별력
0.8 ≤ AUC < 0.9 뛰어난 판별력
AUC ≥ 0.9 최고의 판별력(그러나 거의 없음)

이 모형에 대한 AUC가 0.7보다 작기 때문에 모형이 적절한 판별력을 제공하지 않는다는 결론을 내릴 수 있습니다.

참고 문헌:

D.W. Hosmer and S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John Wiley & Sons, Inc. Pp. 156-164.

A. Agresti (2002). Categorical Data Analysis. 2nd ed. John Wiley & Sons, Inc. Pp.228-230.

이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오