CART^® 회귀 분석 예제

의료 제공자는 약물 남용 치료 서비스를 제공하는 시설을 운영합니다. 시설의 서비스 중 하나는 정기적인 치료 과정이 1일에서 30일까지 지속될 수 있는 외래 환자 해독 프로그램입니다. 인력 및 소모품을 계획하는 팀은 환자가 프로그램에 들어갈 때 환자에 대해 수집할 수 있는 정보를 기반으로 환자가 서비스를 사용하는 기간에 대해 더 나은 예측을 할 수 있는지 여부를 연구하고자 합니다. 이 변수는 환자의 약물 남용에 대한 인구 통계학적 정보 및 변수를 포함합니다.

첫째, 팀은 Minitab에서 기존의 회귀 분석을 고려합니다. 데이터의 결측값 패턴으로 인해 분석에서 데이터의 70% 이상이 생략됩니다. 이러한 많은 비율의 데이터가 누락되면 많은 정보가 손실됩니다. 누락된 데이터가 없는 사례의 분석 결과는 전체 데이터 세트를 사용하는 결과와 매우 다를 수 있습니다. CART^® 회귀 분석는 예측 변수의 결측값을 자동으로 처리하기 때문에 팀은 CART^® 회귀 분석을 사용하여 데이터를 추가로 평가하기로 결정합니다.

표본 데이터 세트를 엽니다 서비스기간.MWX.
예측 분석 모듈 > CART® 회귀을 선택합니다.
반응에서 '서비스 기간'를 입력합니다.
계량형 예측 변수에서 '입학 연령'-'교육 연도'를 입력합니다.
범주형 예측 변수에서 '다른 자극제 사용'-'DSM 진단'를 입력합니다.
검증을 클릭합니다.
검증 방법에서 K-접기 교차 검증를 선택합니다.
ID 열별로 각 접기의 행 할당을 선택합니다.
ID 열에서 접어를 입력합니다.
각 대화 상자에서 확인를 클릭합니다.

결과 해석

기본적으로 Minitab은 최대 결정계수 값의 1 표준 오차 내에 결정계수 값을 가진 가장 작은 트리를 표시합니다. 의료 팀은 k-폴드 검증을 사용하기 때문에 기준은 최대 k-폴드 결정계수 값입니다. 이 트리에는 21개의 터미널 노드가 있습니다.

연구원은 트리를 검사하기 전에 교차 검증의 결정계수 값과 터미널 노드 수를 보여주는 그림을 살펴봅니다. 이 그림은 처음 몇 개의 노드에 대해 결정계수 통계가 빠르게 증가한 다음 평평해지는 패턴을 표시합니다. 이 차트는 결정계수 값이 약 70개의 노드가 있는 트리에 비해 약 20개의 노드가 있는 트리가 비교적 안정적이라는 것을 보여주므로 연구원은 결과에서 트리와 유사한 더 작은 일부 트리의 성능을 보고 싶어합니다.

대립 트리 선택

출력에서 대립 트리 선택을 클릭합니다.
그림에서 17노드 트리를 선택합니다.
트리 만들기을 클릭합니다.

결과 해석

연구원은 교차 검증 및 터미널 노드 수에서 결정계수 통계 그림을 살펴봅니다. 노드가 17개인 트리에는 그림의 가장 큰 값에 가까운 결정계수 통계가 있으므로 나머지 출력의 결과는 17개의 노드가 있는 트리에 대한 결과입니다.

연구원은 더 작은 트리의 성능을 평가하기 위해 모형 요약을 먼저 살펴봅니다. 학습 및 검정 통계의 값이 서로 가깝기 때문에 트리가 과도하게 적합하지 않은 것처럼 보입니다. 결정계수 통계는 21개 노드 트리만큼 높기 때문에 연구원은 17개의 노드가 있는 트리를 사용하여 예측 변수와 반응 값 간의 관계를 살펴보기로 결정합니다.

방법

노드 분할	최소 제곱 오차
최적 트리	최대 R-제곱의 2.5 표준 오차 이내
모형 검증	접어에 의해 정의된 행을 사용한 교차 검증
사용된 행	4453

반응 정보

평균	표준 편차	최소값	Q1	중위수	Q3	최대값
17.5960	9.29097	1	10	18	26	30

모형 요약

전체 예측 변수	44
중요 예측 변수	33
단말 노드 수	17
최소 단말 노드 크기	49

통계량	교육	검정
R-제곱	77.99%	76.61%
루트 평균 제곱 오차(RMSE)	4.3585	4.4932
평균 제곱 오차(MSE)	18.9967	20.1887
평균 절대 편차(MAD)	3.4070	3.5226
평균 절대 백분율 오차(MAPE)	0.6535	0.6674

변수의 상대적 중요도 차트는 가장 중요한 예측 변수가 '알코올 사용'임을 보여줍니다. 상위 예측 변수 '알코올 사용'의 기여도가 100%이면 다른 변수를 '알코올 사용' 에 비교하여 중요도를 확인할 수 있습니다. 따라서 가장 중요한 예측 변수에 집중할 수 있습니다. 다음 목록에서는 이 트리에서 다음으로 중요한 변수를 설명합니다.

'남용의 1 차적인 물질' 약 '계획된 약물 치료' 92 % 중요합니다 '알코올 사용'.
'헤로인 사용' 는 약 55% 만큼 중요합니다 '알코올 사용'.
'하위의 기본 섭취 경로' 약 '추천 소스' 48% 중요합니다 '알코올 사용'.

이러한 결과에는 긍정적인 중요도를 가진 33개의 변수가 포함되지만 상대 순위는 특정 응용 프로그램을 제어하거나 모니터링할 변수 수에 대한 정보를 제공합니다. 한 변수에서 다음 변수로 상대적 중요도 값이 급격하게 떨어지면 제어하거나 모니터링할 변수에 대한 결정을 내릴 수 있습니다. 예를 들어 이러한 데이터에서 가장 중요한 세 변수에는 다음 변수에 대한 상대적 중요도가 거의 40% 감소하기 전에 비교적 가까워지는 중요도 값이 있습니다. 마찬가지로 세 변수의 중요도 값이 50%에 가깝습니다. 다른 그룹에서 변수를 제거하고 분석을 다시 실행하여 다양한 그룹의 변수가 모형 요약 표의 예측 정확도 값에 미치는 영향을 평가할 수 있습니다.

k-폴드 교차 검증을 통한 분석의 경우 수형도는 전체 데이터 세트의 모든 4453개 사례를 표시합니다. 트리 보기를 상세 보기와 노드 분할 보기 간에 전환할 수 있습니다. 적합치 및 오차 통계 표와 피실험자를 분류하는 기준은 터미널 노드에 대한 추가 정보를 제공합니다.

첫번째 노드는 환자가 약물 치료를 받았는지 여부를 기록하는 변수를 사용하여 분할됩니다.

노드 2에는 '계획된 약물 치료' = 1인 사례가 포함됩니다. 이 노드에는 1881개의 사례가 있습니다. 노드의 평균은 전체 평균보다 적습니다. 노드 2의 표준 편차는 약 5.4이며 분할이 더 많은 순수 노드를 생성하기 때문에 전체 표준 편차보다 적습니다.
노드 8에는 '계획된 약물 치료' = 2인 사례가 포함됩니다. 이 노드에는 2572개의 사례가 있습니다. 노드의 평균은 전체 평균보다 큽니다. 노드 8의 표준 편차는 약 6.1이며 전체 표준 편차보다도 적습니다.

그런 다음 노드 2는 '약물 남용의 빈도'에 의해 분할되고 노드 8은 '알코올 사용'에 의해 분할됩니다. 터미널 노드 17에는 '계획된 약물 치료' = 2, '알코올 사용' = 1 및 '추천 소스' = 3, 5, 6, 100, 300, 400, 600, 700 또는 800에 대한 사례가 있습니다.. 연구원들은 터미널 노드 17에 가장 큰 평균, 최소 표준 편차 및 대부분의 사례가 있음을 주목합니다.

결과에는 적합된 반응 값과 실제 반응 값의 산점도가 포함됩니다. 학습 데이터 세트 및 검정 데이터 세트의 점은 비슷한 패턴을 표시합니다. 이러한 유사성은 새 데이터에 대한 트리의 성능이 학습 데이터에 대한 트리의 성능에 가깝다는 것을 시사합니다.

터미널 노드에 의한 MSE 그림은 터미널 노드 8이 터미널 노드 중에서 가장 정밀하지 않음을 보여줍니다. MSE 값이 더 낮은 노드에 대한 적합치의 정확도에 대해 상대적으로 더 높은 신뢰도를 가질 수 있습니다. 터미널 노드 8의 환자는 다음과 같은 특성을 가지고 있습니다.

'계획된 약물 치료' = {2}
'알코올 사용' = {0}
'추천 소스' = {1, 2, 600, 700, 800}
소득원 = {1, 2, 3, 4}
'약물 남용의 빈도' = {1, 3}
'이전 치료 에피소드' <= 1.5

터미널 노드 8에 있는 사례들은 변동을 줄이거나 설명하는 방법이 있는 경우 트리를 개선할 수 있는 최대 기회를 가집니다.

터미널 노드별 잔차 그림은 적합치가 터미널 노드 8에 있는 환자의 작은 군집에 대해 너무 크다는 것을 보여줍니다. 분석가는 이 환자 중 몇 명이 그룹의 전형적인 환자보다 더 적은 시간 동안 서비스를 사용하는 이유에 대한 조사를 고려합니다. 예를 들어, 이 환자가 터미널 노드에 있는 기타 환자와 다른 지리적 위치에 있는 경우 다른 정부 및 보험 규정은 서비스를 사용하는 기간에 영향을 미칠 수 있었습니다.

터미널 노드별 잔차 그림은 분석가가 군집 또는 특이치를 조사하도록 선택할 수 있는 다른 사례를 보여줍니다. 예를 들어, 이러한 데이터에는 터미널 노드 1과 터미널 노드 7의 다른 잔차보다 훨씬 더 크게 나타나는 잔차가 하나 있습니다. 분석가는 이 환자가 터미널 노드에 있는 기타 환자보다 더 오래 서비스를 사용한 이유를 조사하기로 결정합니다.

검정 R² 값은 개선할 여지가 있고 잔차 그림은 트리가 잘 적합하지 않는 사례를 보여주기 때문에 연구원들은 TreeNet^® 회귀 분석 또는 Random Forests^® 회귀 분석를 사용하여 적합성을 개선할지 여부를 고려합니다.

CART® 회귀 분석 예제

결과 해석

대립 트리 선택

결과 해석

방법

반응 정보

모형 요약

CART^® 회귀 분석 예제