학습 데이터 세트에 대한 차트의 경우 차트의 각 점은 트리의 터미널 노드를 나타냅니다. 사건 확률이 가장 높은 터미널 노드는 차트의 첫 번째 지점이며 가장 왼쪽에 나타납니다. 다른 터미널 노드는 사건 확률을 줄이는 순서입니다.
다음 프로세스를 사용하여 점에 대한 x 및 y 좌표를 찾습니다.
예를 들어 다음 표에서 4개의 터미널 노드가 있는 트리를 요약한다고 가정합니다.
A: 터미널 노드 | B: 사건 발생 횟수 | C: 사례 수 | D: 분계점(B/C) |
---|---|---|---|
4 | 18 | 30 | 0.60 |
1 | 25 | 67 | 0.37 |
3 | 12 | 56 | 0.21 |
2 | 4 | 36 | 0.11 |
합계 | 59 | 189 |
그런 다음 진양성률이 소수점 2자리인 네 개의 표는 다음과 같습니다.
예측 | |||
---|---|---|---|
사건 | 비사건 | ||
관측 | 사건 | 18 | 41 |
비사건 | 12 | 118 |
예측 | |||
---|---|---|---|
사건 | 비사건 | ||
관측 | 사건 | 43 | 16 |
비사건 | 54 | 76 |
예측 | |||
---|---|---|---|
사건 | 비사건 | ||
관측 | 사건 | 55 | 4 |
비사건 | 98 | 32 |
예측 | |||
---|---|---|---|
사건 | 비사건 | ||
관측 | 사건 | 59 | 0 |
비사건 | 130 | 0 |
예를 들어 예측 확률이 가장 높은 터미널 노드에 0.16의 데이터가 포함되어 있고 사건 확률이 두 번째로 높은 터미널 노드가 0.35의 모집단을 가지면 첫 번째 터미널 노드에 대한 데이터의 누적 백분율이 0.16이고 두 번째 터미널 노드에 대한 모집단의 누적 백분율은 0.16 + 0.35 = 0.51입니다.
다음 표에서는 작은 트리에 대한 계산의 예를 표시합니다. 값은 소수점 2자리입니다.
A: 터미널 노드 | B: 사건 발생 횟수 | C: 사례 수 | D: 정렬에 대한 사건 확률(B/C) | E: 진양성률 | F: 데이터 백분율(C/C 합계) | G: 데이터의 누적 백분율, x 좌표 | H: 누적 향상도(E/G), y 좌표 |
---|---|---|---|---|---|---|---|
4 | 18 | 30 | 0.60 | 0.31 | 0.16 | 0.16 | 1.92 |
1 | 25 | 67 | 0.37 | 0.73 | 0.35 | 0.51 | 1.42 |
3 | 12 | 56 | 0.21 | 0.93 | 0.30 | 0.81 | 1.15 |
2 | 4 | 36 | 0.11 | 1 | 0.19 | 1.00 | 1 |
학습 데이터 세트 사례와 동일한 단계를 사용하지만 검정 데이터 세트의 사례에서 사건 확률을 계산합니다.
k-폴드 교차 검증을 사용하여 누적 향상도 차트에서 x 및 y 좌표를 정의하는 절차에는 추가 단계가 있습니다. 이 단계에서는 여러 가지 고유한 사건 확률을 만듭니다. 예를 들어 수형도에 4개의 터미널 노드가 포함되어 있다고 가정합니다. 10-폴드 교차 검증이 있으면 i번째 폴드의 경우 데이터의 9/10 부분을 사용하여 폴드 i의 사례에 대한 사건 확률을 추정합니다. 이 프로세스가 각 폴드에 대해 반복되면 고유 사건 확률의 최대 수는 4 *10 = 40입니다. 그런 다음 모든 고유한 사건 확률을 감소 순서로 정렬합니다. 사건 확률을 각 분계점으로 사용하여 전체 데이터 세트의 사례에 대해 예측된 클래스를 할당합니다. 이 단계 후 학습 데이터 세트 절차의 3단계에서 마지막 단계는 x 및 y 좌표를 찾기 위해 적용됩니다.