최고의 모형 검색(계량형 반응) 예제

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

최상의 모델 유형 검색

의료 시스템 연구원은 지역 의료 클리닉에서 데이터를 수집합니다. 특히 연구팀은 아픈 환자에 대한 의사의 초기 검사 데이터에 관심이 있습니다. 초기 검사가 끝나면 의사는 각 환자에게 질병의 중증도에 대한 점수를 부여합니다. 연구원들은 의사가 검사하기 전에 가장 아픈 환자의 우선 순위를 정하는 데 도움이되는 간단한 설문지를 개발하고자합니다. 팀은 주제 전문가와의 상담과 데이터의 초기 탐색을 통해 심각도 점수를 예측하기 위해 8개의 변수를 선택합니다. 연구원들은 모델을 더 구체화하기 전에 심각도 점수를 예측하는 데 가장 적합한 모델 유형을 결정하려고 합니다.

연구원들은 다중 회귀, TreeNet®, Random Forests® CART® 및 MARS®의 5 가지 유형의 모델의 예측 성능을 비교하는 데 사용합니다 최고의 모형 검색(계량형 반응) . 팀은 예측 성능이 가장 좋은 모델 유형을 추가로 탐색할 계획입니다.

다음 링크를 사용하여 다른 데이터 집합에 대한 각 모델 유형의 예를 볼 수 있습니다.
  1. 표본 데이터 질병.MTW를 엽니다.
  2. 예측 분석 모듈 > 자동화된 기계 학습 > 최고의 모형 검색(계량형 반응)을 선택합니다.
  3. 반응에 '질병 심각도 점수'을 입력합니다.
  4. 계량형 예측 변수에 '지금 증상의 수'을 입력합니다.
  5. 범주형 예측 변수'가래의 높은 생산'-'정상적인 활동에 대한 제한’를 입력합니다.
  6. 확인을 클릭합니다.

결과 해석

모델 선택 테이블은 모델 유형의 성능을 비교합니다. 다중 회귀 모델의 최대값은R2입니다. 다음 결과는 최상의 다중 회귀 모델에 대한 것입니다.

반응과 모형의 각 항 간의 연관성이 통계적으로 유의한지 여부를 확인하려면 항에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 항과 반응 간에 연관성이 없다는 것입니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시됨)이 적절합니다. 0.05의 유의 수준은 실제 연관성이 없는데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다. 이 결과에서 두 교호작용 항의 p-값이 0.05보다 큽니다. 심한 호흡 곤란*심한 두통심한 두통*심한 수면 장애. 연구원이 다른 다중 회귀 모델을 탐색할 때 모델 성능 메트릭과 잔차 플롯을 사용하여 이러한 용어를 모델에 포함할 때의 효과를 탐색합니다.

모형 요약표는 훈련 R2와 검정R2 가 모두 약 91%임을 보여줍니다. 데이터 값이 적합치에서 얼마나 떨어져 있는지를 나타내는 검정 평균 제곱근 오차(RMSE)는 약 4입니다. RMSE는 질병 점수의 척도가 작기 때문에 연구자들은 적은 수의 질문이 환자의 우선 순위를 정하는 데 도움이되는 충분한 정보라고 낙관합니다.

비정상적인 정보에 대한 적합치 및 진단 표는 제안된 회귀 방정식을 잘 따르지 않는 데이터 점을 보여줍니다. 다음은 전체 데이터 집합의 적합 및 진단입니다.

문자 R은 잔차가 큰 점을 나타냅니다. 비정상적인 데이터 점을 검사하여 모형이 적합하지 않을 수 있는 예측 변수 값을 확인합니다. 문자 X는 레버리지가 높은 점을 나타냅니다. 레버리지가 높은 점에는 나머지 데이터 집합에 비해 비정상적인 예측 변수 조합이 있습니다.

큰 잔차와 높은 레버리지 포인트는 잠재적으로 영향력 있는 포인트입니다. 예를 들어, 영향력 있는 점을 포함하거나 제외함에 따라 계수가 통계적으로 유의하거나 유의하지 않은지 여부가 달라질 수 있습니다. 영향력 있는 관측치가 표시되면 관측치가 데이터 입력 오류인지 측정 오류인지 확인합니다. 관측치가 오차가 아니면 관측치가 결과에 얼마나 영향을 미치는지 확인합니다. 연구원이 모형을 더 탐색할 때 관측치가 있거나 없는 모형을 적합시킵니다. 그런 다음 계수, p-값,R2및 기타 모델 정보를 비교합니다. 영향력 있는 관측치를 제거한 경우 모형이 크게 달라지면 모형을 추가로 조사하여 모형을 잘못 지정했는지 확인합니다. 이 문제를 해결하기 위해 데이터를 추가로 수집해야 할 수도 있습니다.

적합된 질병 점수와 실제 질병 점수의 산점도는 훈련 데이터와 검정 데이터 모두에 대한 적합치와 실제 값 간의 관계를 보여줍니다. 점들은 대략 y=x의 기준선 근처에 있으며, 이는 모형이 데이터를 잘 적합시킨다는 것을 나타냅니다.

방법

선형 항 및 순서 2의 항이 포함된 회귀 모델을 적합합니다.
제곱 손실 함수를 사용하여 6 TreeNet® 회귀 모델을 적합합니다.
교육 데이터 크기 1546과(와) 동일한 부트스트랩 표본 크기로 3 Random Forests® 분류 모델을 적합합니다.
최적의 CART® 회귀 모델을 적합합니다.
최적의 MARS® 회귀 모델을 적합합니다.
5 접기 교차 검증에서 최대 R-제곱이 있는 모델을 선택합니다.
행의 총 수: 1546
회귀 모형에 사용되는 행: 1546
트리 기반 모형에 사용되는 행: 1546

반응 정보

평균표준 편차최소값Q1중위수Q3최대값
31.011014.0820019.0530.9540.4876.19
유형 내에서 최고의 모형R-제곱(%)평균 절대 편차
다중 회귀*91.233.1011
MARS®91.053.1604
TreeNet®90.903.1613
Random Forests®89.933.3248
CART®86.113.9369
* 최대 R-제곱이 있는 모든 모델 유형에서 최상의 모델. 최상의 모형 출력이 뒤에 나옵니다.

최고의 다중 회귀 모형에 대한 검증을 통한 항의 전진 선택

선택된 항: 지금 증상의 수, 가래의 높은 생산, 심한 호흡 곤란, 심한 두통, 심한 수면 장애, 전반적으로 기분이 매우 좋았습니다., 정상적인 활동에 대한 제한, 지
     금 증상의 수*심한 호흡 곤란, 지금 증상의 수*심한 가슴 통증, 심한 호흡 곤란*심한 수면 장애, 전반적으로 기분이 매우 좋았습니다.*정상적인 활동에 대한 제한
 

회귀 방정식

질병 심각도 점수=1.241 + 2.5386 지금 증상의 수 + 0.0 가래의 높은 생산_0 + 3.900 가래의 높은 생산_1 + 0.0 심한 호흡 곤란_0
+ 0.94 심한 호흡 곤란_1 + 0.0 심한 두통_0 + 4.094 심한 두통_1 + 0.0 심한 수면 장애_0 + 3.884 심한 수면 장애
_1 + 0.0 전반적으로 기분이 매우 좋았습니다._0 + 3.473 전반적으로 기분이 매우 좋았습니다._1 + 0.0 정상적인 활동에 대한 제한
_0 + 3.140 정상적인 활동에 대한 제한_1 + 0.0 지금 증상의 수*심한 호흡 곤란_0 + 0.373 지금 증상의 수*심한 호흡 곤란_1
+ 0.0 지금 증상의 수*심한 가슴 통증_0 + 0.4765 지금 증상의 수*심한 가슴 통증_1 + 0.0 심한 호흡 곤란*심한 수면 장애_0
0 + 0.0 심한 호흡 곤란*심한 수면 장애_0 1 + 0.0 심한 호흡 곤란*심한 수면 장애_1 0 + 1.337 심한 호흡 곤란*심한 수
면 장애_1 1 + 0.0 전반적으로 기분이 매우 좋았습니다.*정상적인 활동에 대한 제한_0 0 + 0.0 전반적으로 기분이 매우 좋았습니다.*정
상적인 활동에 대한 제한_0 1 + 0.0 전반적으로 기분이 매우 좋았습니다.*정상적인 활동에 대한 제한_1 0 + 1.372 전반적으로 기분
이 매우 좋았습니다.*정상적인 활동에 대한 제한_1 1

계수

계수SE 계수T-값P-값VIF
상수1.2410.3853.220.001 
지금 증상의 수2.53860.059342.810.0001.95
가래의 높은 생산         
  13.9000.22517.350.0001.10
심한 호흡 곤란         
  10.941.180.800.42423.23
심한 두통         
  14.0940.25316.180.0001.25
심한 수면 장애         
  13.8840.28413.690.0001.73
전반적으로 기분이 매우 좋았습니다.         
  13.4730.34310.140.0002.62
정상적인 활동에 대한 제한         
  13.1400.4247.400.0003.98
지금 증상의 수*심한 호흡 곤란         
  10.3730.1332.810.00526.80
지금 증상의 수*심한 가슴 통증         
  10.47650.031215.260.0001.25
심한 호흡 곤란*심한 수면 장애         
  1 11.3370.5282.530.0113.26
전반적으로 기분이 매우 좋았습니다.*정상적인 활동에 대한 제한         
  1 11.3720.5272.610.0095.73

모형 요약

통계량교육검정
R-제곱91.35%91.23%
루트 평균 제곱 오차(RMSE)4.15624.1679
평균 제곱 오차(MSE)17.274117.3714
평균 절대 편차(MAD)3.07983.1011
     
R-제곱(수정)91.29% 
R-제곱(예측)  91.19%

분산 분석

출처DFAdj SSAdj MSF-값P-값
회귀1127988125443.71472.940.000
  지금 증상의 수13165531654.81832.510.000
  가래의 높은 생산152025201.8301.140.000
  심한 호흡 곤란11111.10.640.424
  심한 두통145204520.0261.660.000
  심한 수면 장애132393238.8187.500.000
  전반적으로 기분이 매우 좋았습니다.117761775.6102.790.000
  정상적인 활동에 대한 제한1945945.454.730.000
  지금 증상의 수*심한 호흡 곤란1136136.47.900.005
  지금 증상의 수*심한 가슴 통증140234023.4232.920.000
  심한 호흡 곤란*심한 수면 장애1111110.76.410.011
  전반적으로 기분이 매우 좋았습니다.*정상적인 활동에 대한 제한1117117.36.790.009
오차15342649817.3   
  적합성 결여484924719.11.160.025
  순수 오차10501725116.4   
총계1545306379     

비정상적 관측치에 대한 적합치 및 진단

관측질병 심각도 점수적합치잔차표준화 잔차
1166.67056.7579.9132.40R 
1352.38041.17711.2032.71R 
1659.52048.60410.9162.64R 
3350.00060.657-10.657-2.57R 
4864.29055.4168.8742.14R 
5261.90053.3698.5312.06R 
5450.00041.5988.4022.03R 
5650.00058.328-8.328-2.02R 
5838.10046.485-8.385-2.03R 
10659.52049.02810.4922.53R 
11459.52047.16012.3602.99R 
12869.05058.32810.7222.59R 
14450.00040.4719.5292.30R 
17347.62056.757-9.137-2.21R 
17442.86034.0008.8602.14R 
19142.86052.051-9.191-2.23R 
19859.52048.41111.1092.68R 
20273.81064.0469.7642.36R 
20547.62037.55910.0612.43R 
21335.71034.9700.7400.18  X
21716.67019.053-2.383-0.58  X
23947.62058.328-10.708-2.59R 
24171.43066.3115.1191.25  X
24314.29024.088-9.798-2.36R 
30450.00041.1308.8702.14R 
30714.29010.9203.3700.83  X
35264.29051.25413.0363.15R 
36938.10049.275-11.175-2.70R 
39116.67032.073-15.403-3.72R 
3920.00011.395-11.395-2.75R 
3950.00013.934-13.934-3.36R 
42440.48052.504-12.024-2.90R 
42547.62034.59713.0233.16R 
47447.62038.5389.0822.21R 
47940.48030.8969.5842.31R 
48916.67025.023-8.353-2.02R 
49130.95024.3486.6021.61  X
49357.14044.33912.8013.09R 
49535.71025.48010.2302.47R 
50938.10026.69611.4042.77R 
52073.81058.32815.4823.75R 
53738.10028.3589.7422.35R 
55014.29024.458-10.168-2.45R 
58342.86053.369-10.509-2.54R 
69419.05021.817-2.767-0.68  X
72059.52065.602-6.082-1.49  X
72240.48032.0668.4142.03R 
80230.95042.586-11.636-2.81R 
80530.95039.868-8.918-2.16R 
81440.48032.0738.4072.03R 
82361.90048.14813.7523.33R 
83333.33044.054-10.724-2.60R 
85938.10049.275-11.175-2.70R 
86847.62037.7899.8312.38R 
89130.95019.94511.0052.66R 
89328.57048.860-20.290-4.92R 
90545.24055.416-10.176-2.46R 
92454.76056.019-1.259-0.31  X
97764.29053.10711.1832.72R 
98357.14047.6839.4572.29R 
98850.00044.5015.4991.34  X
99373.81064.0469.7642.36R 
99733.33024.4588.8722.14R 
100354.76045.1289.6322.33R 
102533.33047.705-14.375-3.49R 
105957.14048.6638.4772.05R 
110547.62037.31910.3012.49R 
115059.52044.33915.1813.67R 
116052.38040.05112.3292.97R 
116330.95041.598-10.648-2.57R 
116569.05056.75712.2932.97R 
116959.52049.27510.2452.48R 
119842.86051.516-8.656-2.09R 
120776.19063.53412.6563.07R 
121326.19040.278-14.088-3.41R 
122840.48050.571-10.091-2.45R 
123559.52050.1759.3452.26R 
123757.14048.2398.9012.15R 
124664.29055.4168.8742.14R 
126245.24035.9579.2832.24R 
126357.14043.95113.1893.18R 
128233.33036.011-2.681-0.65  X
128445.24056.564-11.324-2.74R 
128547.62060.657-13.037-3.15R 
130326.19036.567-10.377-2.51R 
130535.71045.499-9.789-2.36R 
131130.95040.089-9.139-2.21R 
134526.19025.1051.0850.26  X
135342.86053.175-10.315-2.49R 
136526.19017.8348.3562.01R 
137747.62035.22212.3983.00R 
138069.05055.41613.6343.29R 
138450.00038.49611.5042.78R 
141426.19035.345-9.155-2.21R 
150261.90050.19511.7052.84R 
152638.10025.45012.6503.05R 
153514.29024.088-9.798-2.36R 
154438.10029.1658.9352.16R 
154850.00040.4559.5452.31R 
156538.10042.846-4.746-1.16  X
158266.67055.43711.2332.72R 
R  큰 잔차
X  비정상적인 X

대체 모형 선택

연구원들은 최상의 TreeNet® 모델에 대한 결과를 조사하기로 결정합니다.

  1. 에 대한 결과에서 최량 다중 회귀 모형에 대한 최고의 모형 검색(계량형 반응)항을 단계적으로 선택한 후 를 클릭합니다 대체 모형 선택.
  2. 모형 유형에서 TreeNet®를 선택합니다.
  3. 에서 기존 모형 선택R2의 값이 가장 좋은 6번째 모형을 선택합니다.
  4. 결과 표시을 클릭합니다.

결과 해석

이 분석에서는 300그루의 나무를 키우며 최적의 나무 수는 63개입니다. 이 모델은 학습률 0.1과 하위 표본 부분 0.7을 사용합니다. 최대 터미널 노드 수는 6개입니다.

방법

손실 함수제곱 오차
최적 트리 수 선택 기준최대 R-제곱
모형 검증5-접기 교차 검증
학습률0.1
하위 표본 부분0.7
트리당 최대 터미널 노드 수6
최소 단말 노드 크기3
노드 분할을 위해 선택된 예측 변수 수총 예측 변수 수 = 8
사용된 행1546
사용되지 않은 행70

반응 정보

평균표준 편차최소값Q1중위수Q3최대값
31.011014.0820019.0530.9540.4876.19

R-제곱 대 트리 수 그림은 성장한 트리 수에 대한 전체 곡선을 보여줍니다. 트리 수가 63개일 때 검정 데이터의 최적 값은 약 91%입니다.

모형 요약

전체 예측 변수8
중요 예측 변수8
성장한 트리 수300
최적의 트리 수63
통계량교육검정
R-제곱91.93%90.90%
루트 평균 제곱 오차(RMSE)3.99924.2471
평균 제곱 오차(MSE)15.993218.0375
평균 절대 편차(MAD)2.99433.1613
평균 절대 백분율 오차(MAPE)0.10880.1130

모델 요약 표는 트리 수가 63개일 때 R2 값이 학습 데이터의 경우 약92%이고 검정 데이터의 경우 약 91%임을 보여줍니다.

상대 변수 중요도 그래프는 트리 시퀀스에 대한 예측 변수에 분할이 이루어질 때 모형 개선에 미치는 영향 순으로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 지금 증상의 수입니다. 상위 예측 변수 ,의 기여도가 100%이면 다음으로 중요한 변수 지금 증상의 수정상적인 활동에 대한 제한인 의 기여도는 44.4%입니다. 이는 이 회귀 모델에서보다 지금 증상의 수 44.4% 더 중요하다는 것을 의미합니다 정상적인 활동에 대한 제한 .

적합된 질병 점수와 실제 질병 점수의 산점도는 훈련 데이터와 검정 데이터 모두에 대한 적합치와 실제 값 간의 관계를 보여줍니다. 점들은 대략 y=x의 기준선 근처에 있으며, 이는 모형이 데이터를 잘 적합시킨다는 것을 나타냅니다.

부분 종속성도를 사용하면 중요한 변수 또는 변수 쌍이 적합 반응 값에 어떤 영향을 미치는지 파악할 수 있습니다. 부분 종속성 플롯은 반응과 변수 간의 관계가 선형, 단조로움 또는 더 복잡한지 여부를 보여줍니다.

첫 번째 그림은 질병 점수와 현재 환자의 증상 수 간의 관계를 보여줍니다. 개별 데이터 포인트 위로 마우스를 가져가면 특정 x 및 y 값을 볼 수 있습니다. 예를 들어, 그래프 오른쪽의 가장 높은 지점은 환자에게 13개의 증상이 있고 적합된 질병 점수가 약 45인 경우입니다.

두 번째 그림은 환자가 정상적인 활동에 대한 제한을 보고할 때 적합된 질병 점수가 약 5점 증가한다는 것을 보여줍니다.

세 번째 그림은 환자가 일반적으로 매우 나쁘다고 보고할 때 적합된 질병 점수가 약 5점 증가한다는 것을 보여줍니다.

네 번째 그림은 환자가 심한 숨가쁨을 보고할 때 적합 질병 점수가 약 4점 증가한다는 것을 보여줍니다.

마지막 그림은 여러 증상에 대한 적합 질병 점수가 환자의 정상적인 활동에도 제한이 있는지 여부에 따라 어떻게 달라지는지 보여줍니다. 동일한 수의 증상에 대해 정상 활동에 대한 제한을보고하는 환자는 적합 질병 점수가 더 높습니다.