Random Forests® 분류을 위한 수신자 검사 특성(ROC) 곡선 차트에 대한 방법 및 수식

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

ROC 곡선의 점에 대한 절차는 검증 방법에 따라 다릅니다. 다항 반응 변수의 경우 Minitab은 각 클래스를 차례로 사건으로 처리하는 여러 차트를 표시합니다.

OOB 검증

포리스트에 있는 지정된 트리의 경우, OOB 데이터의 행에 대한 클래스 투표는 단일 트리의 행에 대한 예측 클래스입니다. OOB 데이터에서 열에 대한 예측 클래스는 포리스트의 모든 트리에서 가장 높은 투표를 가진 클래스입니다. OOB 데이터에서 행에 대한 예측 클래스 확률은 클래스의 투표 수와 행의 총 투표 비율입니다.

OOB 데이터 집합에 대한 차트의 경우 차트의 각 점은 고유한 예측 클래스 확률을 나타냅니다. 가장 높은 사건 확률은 차트의 첫 번째 점이며 가장 왼쪽에 나타납니다. 다른 확률은 감소 순서로 되어 있습니다.

다음 프로세스를 사용하여 차트의 x 및 y 좌표를 찾습니다.

  1. 고유한 사건 확률을 분계점으로 사용합니다. 특정 분계점의 경우 예상 사건 확률이 분계점보다 크거나 같은 사례는 예측 등급으로 1을, 그렇지 않으면 0을 얻습니다. 그런 다음 관측 클래스가 행으로 지정되고 예측 클래스가 열로 지정된 모든 사례에 대해 2x2 표를 형성하여 각 사건 확률에 대한 가양성률과 진양성률을 계산할 수 있습니다. 가양성률은 차트의 x 좌표입니다. 진양성률은 y 좌표입니다.

    예를 들어 다음 표에서 두 개의 2-수준 범주형 예측 변수가 있는 단순 모형을 요약한다고 가정합니다. 이러한 예측 변수는 소수점 2자리로 반올림되는 4개의 고유한 사건 확률을 제공합니다.

    A: 순서 B: 예측 변수 1 C: 예측 변수 2 D: 사건 수 E: 비사건 수 F: 시행 횟수 G: 분계점(적합된 사건 확률)
    1 1 1 18 12 30 0.60
    2 1 2 25 42 67 0.37
    3 2 1 12 44 56 0.21
    4 2 2 4 32 36 0.11
    합계     59 130 189  

    다음은 가양성률과 소수점 2자리로 반올림된 진양성률을 가진 해당 4개의 표입니다.

    표 1. 분계점 = 0.60.

    가양성률 = 12 / (12 + 118) = 0.09

    진양성률 = 18 / (18 + 41) = 0.31

        예측
        사건 비사건
    관측 사건 18 41
    비사건 12 118
    표 2. 분계점 = 0.37.

    가양성률 = (12 + 42) / 130 = 0.42

    진양성률 = (18 + 25) / 59 = 0.73

        예측
        사건 비사건
    관측 사건 43 16
    비사건 54 76
    표 3. 분계점 = 0.21.

    가양성률 = (12 + 42 + 44) / 130 = 0.75

    진양성률 = (18 + 25 + 12) / 59 = 0.93

        예측
        사건 비사건
    관측 사건 55 4
    비사건 98 32
    표 4. 분계점 = 0.11.

    가양성률 = (12 + 42 + 44 + 32) / 130 = 1

    진양성률 = (18 + 25 + 12 + 4) / 59 = 1

        예측
        사건 비사건
    관측 사건 59 0
    비사건 130 0

별도의 검정 집합

OOB 절차와 동일한 단계를 사용하지만 검정 집합의 사례에서 사건 확률을 계산합니다.