이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.
연구원 팀은 심장병에 영향을 미치는 요인에 관하여 상세한 정보를 수집하고 게시합니다. 변수는 나이, 성별, 콜레스테롤 수치, 최대 심장 박동 등을 포함합니다. 이 예제는 심장병에 대한 자세한 정보를 제공하는 공개 데이터 집합을 기반으로 합니다. 원래 데이터는 archive.ics.uci.edu에서 볼 수 있습니다.
중요한 예측 변수를 식별하기 위해 CART® 분류을 사용한 초기 탐색 후 연구원은 TreeNet® 분류 및 Random Forests® 분류를 모두 사용하여 동일한 데이터 집합에서 보다 집중적인 모형을 만듭니다. 연구원은 모형 요약 표와 결과의 ROC 그림을 비교하여 어떤 모형이 더 나은 예측 결과를 제공하는지 평가합니다. 다른 분석의 결과는 CART® 분류 예제 및 TreeNet® 분류를 통한 모형 적합의 예제에서 확인하십시오.
이 분석의 경우 관측치 수는 303입니다. 300개의 부트스트랩 표본은 각각 303개의 관측값을 사용하여 트리를 만듭니다. 데이터에는 비사건 및 사건의 좋은 분할이 포함됩니다.
오분류 비율 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 오분류 비율은 약 0.18입니다.
모형 요약 표는 평균 음수 로그 우도가 0.3994임을 보여줍니다. 이러한 통계는 500개 트리를 키울 때 Minitab TreeNet®에서 만드는 모형과 유사한 모형을 나타냅니다. 오분류 비율도 비슷합니다.
상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 주요 출혈입니다. 상위 예측 변수인 주요 출혈의 기여도가 100%인 경우 다음으로 중요한 변수인 Thal의 기여도는 89.7%입니다. 이것은 Thal이 이 분류 모형의 주요 출혈만큼 중요한 89.7%임을 의미합니다.
오차 행렬은 모형이 등급을 올바르게 구분하는 방법을 보여줍니다. 이 예제에서 사건이 올바르게 예측될 확률은 78.42%입니다. 비사건이 올바르게 예측될 확률은 84.15%입니다.
오분류 비율은 모형이 새 관측치를 정확하게 예측할지 여부를 나타내는 데 도움이 됩니다. 사건 예측의 경우 오분류 오차는 21.58%입니다. 비사건 예측의 경우 오분류 오차는 15.85%이며 전체적으로 오분류 오차는 18.48%입니다.
이러한 데이터에 대한 ROC 곡선 아래 면적은 약 0.9028이며, CART® 분류 모형에 비해 약간의 개선이 표시됩니다. TreeNet® 분류모형에는 0.9089의 검정 AUROC가 있으므로 이러한 2가지 방법이 비슷한 결과를 제공합니다.
이 예제에서 이익 차트는 기준선 위로 급격히 증가한 다음 평평해집니다. 이 경우 데이터의 약 40%가 진양성의 약 78%를 차지합니다. 이 차이는 모형을 사용하여 산출된 추가 이득입니다.
이 예제에서는 향상도 차트가 기준선 위로 크게 증가하고 점차 떨어집니다.