의료 제공자는 약물 남용 치료 서비스를 제공하는 시설을 운영합니다. 시설의 서비스 중 하나는 정기적인 치료 과정이 1일에서 30일까지 지속될 수 있는 외래 환자 해독 프로그램입니다. 인력 및 소모품을 계획하는 팀은 환자가 프로그램에 들어갈 때 환자에 대해 수집할 수 있는 정보를 기반으로 환자가 서비스를 사용하는 기간에 대해 더 나은 예측을 할 수 있는지 여부를 연구하고자 합니다. 이 변수는 환자의 약물 남용에 대한 인구 통계학적 정보 및 변수를 포함합니다.
첫째, 팀은 Minitab에서 기존의 회귀 분석을 고려합니다. 데이터의 결측값 패턴으로 인해 분석에서 데이터의 70% 이상이 생략됩니다. 이러한 많은 비율의 데이터가 누락되면 많은 정보가 손실됩니다. 누락된 데이터가 없는 사례의 분석 결과는 전체 데이터 세트를 사용하는 결과와 매우 다를 수 있습니다. CART® 회귀 분석는 예측 변수의 결측값을 자동으로 처리하기 때문에 팀은 CART® 회귀 분석을 사용하여 데이터를 추가로 평가하기로 결정합니다.
기본적으로 Minitab은 최대 결정계수 값의 1 표준 오차 내에 결정계수 값을 가진 가장 작은 트리를 표시합니다. 의료 팀은 k-폴드 검증을 사용하기 때문에 기준은 최대 k-폴드 결정계수 값입니다. 이 트리에는 21개의 터미널 노드가 있습니다.
연구원은 교차 검증 및 터미널 노드 수에서 결정계수 통계 그림을 살펴봅니다. 노드가 17개인 트리에는 그림의 가장 큰 값에 가까운 결정계수 통계가 있으므로 나머지 출력의 결과는 17개의 노드가 있는 트리에 대한 결과입니다.
연구원은 더 작은 트리의 성능을 평가하기 위해 모형 요약을 먼저 살펴봅니다. 학습 및 검정 통계의 값이 서로 가깝기 때문에 트리가 과도하게 적합하지 않은 것처럼 보입니다. 결정계수 통계는 21개 노드 트리만큼 높기 때문에 연구원은 17개의 노드가 있는 트리를 사용하여 예측 변수와 반응 값 간의 관계를 살펴보기로 결정합니다.
노드 분할 | 최소 제곱 오차 |
---|---|
최적 트리 | 최대 R-제곱의 2.5 표준 오차 이내 |
모형 검증 | 접어에 의해 정의된 행을 사용한 교차 검증 |
사용된 행 | 4453 |
평균 | 표준 편차 | 최소값 | Q1 | 중위수 | Q3 | 최대값 |
---|---|---|---|---|---|---|
17.5960 | 9.29097 | 1 | 10 | 18 | 26 | 30 |
전체 예측 변수 | 44 |
---|---|
중요 예측 변수 | 33 |
단말 노드 수 | 17 |
최소 단말 노드 크기 | 49 |
통계량 | 교육 | 검정 |
---|---|---|
R-제곱 | 77.99% | 76.61% |
루트 평균 제곱 오차(RMSE) | 4.3585 | 4.4932 |
평균 제곱 오차(MSE) | 18.9967 | 20.1887 |
평균 절대 편차(MAD) | 3.4070 | 3.5226 |
평균 절대 백분율 오차(MAPE) | 0.6535 | 0.6674 |
이러한 결과에는 긍정적인 중요도를 가진 33개의 변수가 포함되지만 상대 순위는 특정 응용 프로그램을 제어하거나 모니터링할 변수 수에 대한 정보를 제공합니다. 한 변수에서 다음 변수로 상대적 중요도 값이 급격하게 떨어지면 제어하거나 모니터링할 변수에 대한 결정을 내릴 수 있습니다. 예를 들어 이러한 데이터에서 가장 중요한 세 변수에는 다음 변수에 대한 상대적 중요도가 거의 40% 감소하기 전에 비교적 가까워지는 중요도 값이 있습니다. 마찬가지로 세 변수의 중요도 값이 50%에 가깝습니다. 다른 그룹에서 변수를 제거하고 분석을 다시 실행하여 다양한 그룹의 변수가 모형 요약 표의 예측 정확도 값에 미치는 영향을 평가할 수 있습니다.
k-폴드 교차 검증을 통한 분석의 경우 수형도는 전체 데이터 세트의 모든 4453개 사례를 표시합니다. 트리 보기를 상세 보기와 노드 분할 보기 간에 전환할 수 있습니다. 적합치 및 오차 통계 표와 피실험자를 분류하는 기준은 터미널 노드에 대한 추가 정보를 제공합니다.
그런 다음 노드 2는 약물 남용의 빈도에 의해 분할되고 노드 8은 알코올 사용에 의해 분할됩니다. 터미널 노드 17에는 계획된 약물 치료 = 2, 알코올 사용 = 1 및 추천 소스 = 3, 5, 6, 100, 300, 400, 600, 700 또는 800에 대한 사례가 있습니다.. 연구원들은 터미널 노드 17에 가장 큰 평균, 최소 표준 편차 및 대부분의 사례가 있음을 주목합니다.
결과에는 적합된 반응 값과 실제 반응 값의 산점도가 포함됩니다. 학습 데이터 세트 및 검정 데이터 세트의 점은 비슷한 패턴을 표시합니다. 이러한 유사성은 새 데이터에 대한 트리의 성능이 학습 데이터에 대한 트리의 성능에 가깝다는 것을 시사합니다.
터미널 노드별 잔차 그림은 적합치가 터미널 노드 8에 있는 환자의 작은 군집에 대해 너무 크다는 것을 보여줍니다. 분석가는 이 환자 중 몇 명이 그룹의 전형적인 환자보다 더 적은 시간 동안 서비스를 사용하는 이유에 대한 조사를 고려합니다. 예를 들어, 이 환자가 터미널 노드에 있는 기타 환자와 다른 지리적 위치에 있는 경우 다른 정부 및 보험 규정은 서비스를 사용하는 기간에 영향을 미칠 수 있었습니다.
터미널 노드별 잔차 그림은 분석가가 군집 또는 특이치를 조사하도록 선택할 수 있는 다른 사례를 보여줍니다. 예를 들어, 이러한 데이터에는 터미널 노드 1과 터미널 노드 7의 다른 잔차보다 훨씬 더 크게 나타나는 잔차가 하나 있습니다. 분석가는 이 환자가 터미널 노드에 있는 기타 환자보다 더 오래 서비스를 사용한 이유를 조사하기로 결정합니다.
검정 R2 값은 개선할 여지가 있고 잔차 그림은 트리가 잘 적합하지 않는 사례를 보여주기 때문에 연구원들은 TreeNet® 회귀 분석 또는 Random Forests® 회귀 분석를 사용하여 적합성을 개선할지 여부를 고려합니다.