Random Forests® 분류에 대한 상대 변수 중요도 차트

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

상대 변수 중요도 그래프는 전체 포리스트에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 개선 점수가 가장 높은 변수가 가장 중요한 변수로 설정되고 다른 변수는 중요도 순에 따라 설정됩니다. 상대 변수 중요도는 해석의 용이성을 위해 중요도 값을 표준화합니다. 상대적 중요도는 가장 중요한 예측 변수(중요도 100%)에 대한 백분율 개선으로 정의됩니다.

상대적 중요도는 각 변수 중요도 점수를 변수의 가장 큰 중요도 점수로 나눈 다음 100%를 곱하여 계산합니다.

해석

상대 변수 중요도 값의 범위는 0%에서 100%입니다. 가장 중요한 변수는 항상 100%의 상대적 중요도를 가집니다. 변수가 트리에 없는 경우 해당 변수는 중요하지 않습니다.

Minitab이 변수 중요도 차트의 변수에 대한 상대 중요도 점수를 계산하는 두 가지 방법을 선택합니다. 순열의 경우 Minitab은 차트에서 변수의 왜곡된 값으로 모형을 다시 검증하여 모형의 성능이 얼마나 더 나쁜지 평가합니다. 지니의 경우 Minitab은 변수가 모든 트리에 대해 만드는 개선사항을 합산합니다. 순열은(는) 5000개 이하인 데이터 집합의 기본 방법입니다. 순열의 경우 분석이 너무 오래 걸리지 않고 중요한 예측 변수의 식별이 중요한 목표일 때 더 큰 데이터 집합에 사용할지 여부를 고려하십시오.

가장 중요한 예측 변수는 주요 출혈입니다. 상위 예측 변수인 주요 출혈의 기여도가 100%인 경우 이 예제에서 다음으로 중요한 변수인 Thal은 기여도가 87.5%입니다. 이것은 Thal이 이 분류 모형의 주요 출혈만큼 중요한 89.7%임을 의미합니다.