发现最佳模型 (连续响应)示例

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

搜索最佳型号类型

医疗保健系统的研究人员从其区域医疗诊所收集数据。特别是,研究小组对医生对病人的初步检查数据感兴趣。在初步检查结束时,医生会根据每位患者的疾病严重程度给患者打分。研究人员希望开发一份简短的问卷,以帮助在医生检查之前优先考虑病情最严重的患者。通过咨询主题专家和初步探索数据,团队选择 8 个变量来预测严重性评分。研究人员希望在进一步完善模型之前确定预测严重性评分的最佳模型类型。

研究人员用来 发现最佳模型 (连续响应) 比较5种模型的预测性能:多元回归,TreeNet®,Random Forests® CART® 和MARS®。该团队计划进一步探索具有最佳预测性能的模型类型。

  1. 打开样本数据 疾病.MTW
  2. 选择 预测分析模块 > 自动化机器学习 > 发现最佳模型 (连续响应)
  3. 响应中,输入“疾病严重性评分”。
  4. 连续预测变量中,输入“现在症状数量”。
  5. 在 中 类别预测变量输入“痰的高产量”-”。对正常活动的限制
  6. 单击 确定

解释结果

“模型选择”表比较了模型类型的性能。多元回归模型的最大值为 R2。以下结果适用于最佳多元回归模型。

要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 .05 即可。显著性水平 0.05 表示在没有实际关联的情况下得出关联存在的结论的风险为 5%。在这些结果中,两个交互作用项的 p 值大于 0.05:严重呼吸急促*严重头痛严重头痛*严重睡眠障碍 。当研究人员探索其他多元回归模型时,他们将使用模型性能指标和残差图来探索将这些项包含在模型中的效果。

模型汇总表显示训练 R2 和测试 R2 都约为 91%。检验均方根误差 (RMSE) 表示数据值与拟合值的距离约为 4。由于RMSE在疾病评分的量表上很小,研究人员乐观地认为,少量的问题足以帮助确定患者的优先级。

异常信息的拟合和诊断表显示了不很好地遵循建议的回归方程的数据点。这些是来自完整数据集的拟合和诊断。

字母 R 表示残差较大的点。检查异常数据点以查看模型可能拟合不佳的预测变量值。字母X表示高杠杆点。相对于数据集的其余部分,具有高杠杆率的点具有不寻常的预测因子组合。

大残差和高杠杆点是潜在的影响点。例如,包含或不包含有影响的点可能会改变系数是否统计意义显著。如果看到有影响的观测值,请确定该观测值是数据输入误差还是测量误差。如果观测值不是错误,请确定观测值对结果的影响程度。当研究人员进一步探索该模型时,他们将在有和没有观察的情况下拟合模型。然后,他们将比较系数、p 值、R2和其他模型信息。如果在移除有影响的观测值时模型发生显著变化,请进一步检查模型以确定是否错误地指定了模型。您可能需要收集更多数据以解决此问题。

拟合疾病分数与实际疾病分数的散点图显示了训练数据和检验数据的拟合值与实际值之间的关系。这些点大约落在 y=x 的参考线附近,这表明模型与数据拟合良好。

方法

拟合具有线性项和二阶项的回归模型。
使用平方损失函数拟合 6 TreeNet® 回归模型。
使用与 1546 的训练数据大小相同的 Bootstrap 样本数量拟合 3 Random Forests® 回归模型。
拟合最优 CART® 回归模型。
拟合最优 MARS® 回归模型。
从 5 折叠交叉评估中选择具有最大 R 平方的模型。
总行数: 1546
用于回归模型的行: 1546
用于基于树的模型的行: 1546

响应信息

均值标准差最小值下四分位数中位数上四分位数最大值
31.011014.0820019.0530.9540.4876.19
类型内的最佳模型R 平方 (%)平均绝对偏差
多元回归*91.233.1011
MARS®91.053.1604
TreeNet®90.903.1613
Random Forests®89.933.3248
CART®86.113.9369
* 所有模型类型中具有最大 R 平方的最佳模型。最佳模型的输出如下所示。

对最佳多元回归模型进行验证的项的前进法选择

选定项: 现在症状数量, 痰的高产量, 严重呼吸急促, 严重头痛, 严重睡眠障碍, 通常感觉很糟, 对正常活动的限制, 现在症状数量*严重呼吸急促, 现在症状数量*严重胸痛, 严重呼吸急
     促*严重睡眠障碍, 通常感觉很糟*对正常活动的限制
 

回归方程

疾病严重性评分=1.241 + 2.5386 现在症状数量 + 0.0 痰的高产量_0 + 3.900 痰的高产量_1 + 0.0 严重呼吸急促_0 + 0.94 严重呼吸急促_1
+ 0.0 严重头痛_0 + 4.094 严重头痛_1 + 0.0 严重睡眠障碍_0 + 3.884 严重睡眠障碍_1 + 0.0 通常感觉很糟_0
+ 3.473 通常感觉很糟_1 + 0.0 对正常活动的限制_0 + 3.140 对正常活动的限制_1 + 0.0 现在症状数量*严重呼吸急促_0
+ 0.373 现在症状数量*严重呼吸急促_1 + 0.0 现在症状数量*严重胸痛_0 + 0.4765 现在症状数量*严重胸痛_1 + 0.0 严重呼吸急促*严重睡
眠障碍_0 0 + 0.0 严重呼吸急促*严重睡眠障碍_0 1 + 0.0 严重呼吸急促*严重睡眠障碍_1 0 + 1.337 严重呼吸急促*严重睡眠障碍_1 1
+ 0.0 通常感觉很糟*对正常活动的限制_0 0 + 0.0 通常感觉很糟*对正常活动的限制_0 1 + 0.0 通常感觉很糟*对正常活动的限制_1 0
+ 1.372 通常感觉很糟*对正常活动的限制_1 1

系数

系数系数标准误T 值P 值方差膨胀因子
常量1.2410.3853.220.001 
现在症状数量2.53860.059342.810.0001.95
痰的高产量         
  13.9000.22517.350.0001.10
严重呼吸急促         
  10.941.180.800.42423.23
严重头痛         
  14.0940.25316.180.0001.25
严重睡眠障碍         
  13.8840.28413.690.0001.73
通常感觉很糟         
  13.4730.34310.140.0002.62
对正常活动的限制         
  13.1400.4247.400.0003.98
现在症状数量*严重呼吸急促         
  10.3730.1332.810.00526.80
现在症状数量*严重胸痛         
  10.47650.031215.260.0001.25
严重呼吸急促*严重睡眠障碍         
  1 11.3370.5282.530.0113.26
通常感觉很糟*对正常活动的限制         
  1 11.3720.5272.610.0095.73

模型汇总

统计量训练测试
R 平方91.35%91.23%
均方根误差 (RMSE)4.15624.1679
均方误差 (MSE)17.274117.3714
平均绝对偏差 (MAD)3.07983.1011
     
R 平方(调整)91.29% 
R 平方(预测)  91.19%

方差分析

来源自由度Adj SSAdj MSF 值P 值
回归1127988125443.71472.940.000
  现在症状数量13165531654.81832.510.000
  痰的高产量152025201.8301.140.000
  严重呼吸急促11111.10.640.424
  严重头痛145204520.0261.660.000
  严重睡眠障碍132393238.8187.500.000
  通常感觉很糟117761775.6102.790.000
  对正常活动的限制1945945.454.730.000
  现在症状数量*严重呼吸急促1136136.47.900.005
  现在症状数量*严重胸痛140234023.4232.920.000
  严重呼吸急促*严重睡眠障碍1111110.76.410.011
  通常感觉很糟*对正常活动的限制1117117.36.790.009
误差15342649817.3   
  失拟484924719.11.160.025
  纯误差10501725116.4   
合计1545306379     

异常观测值的拟合和诊断

观测值疾病严重性评分拟合值残差标准化残差
1166.67056.7579.9132.40R 
1352.38041.17711.2032.71R 
1659.52048.60410.9162.64R 
3350.00060.657-10.657-2.57R 
4864.29055.4168.8742.14R 
5261.90053.3698.5312.06R 
5450.00041.5988.4022.03R 
5650.00058.328-8.328-2.02R 
5838.10046.485-8.385-2.03R 
10659.52049.02810.4922.53R 
11459.52047.16012.3602.99R 
12869.05058.32810.7222.59R 
14450.00040.4719.5292.30R 
17347.62056.757-9.137-2.21R 
17442.86034.0008.8602.14R 
19142.86052.051-9.191-2.23R 
19859.52048.41111.1092.68R 
20273.81064.0469.7642.36R 
20547.62037.55910.0612.43R 
21335.71034.9700.7400.18  X
21716.67019.053-2.383-0.58  X
23947.62058.328-10.708-2.59R 
24171.43066.3115.1191.25  X
24314.29024.088-9.798-2.36R 
30450.00041.1308.8702.14R 
30714.29010.9203.3700.83  X
35264.29051.25413.0363.15R 
36938.10049.275-11.175-2.70R 
39116.67032.073-15.403-3.72R 
3920.00011.395-11.395-2.75R 
3950.00013.934-13.934-3.36R 
42440.48052.504-12.024-2.90R 
42547.62034.59713.0233.16R 
47447.62038.5389.0822.21R 
47940.48030.8969.5842.31R 
48916.67025.023-8.353-2.02R 
49130.95024.3486.6021.61  X
49357.14044.33912.8013.09R 
49535.71025.48010.2302.47R 
50938.10026.69611.4042.77R 
52073.81058.32815.4823.75R 
53738.10028.3589.7422.35R 
55014.29024.458-10.168-2.45R 
58342.86053.369-10.509-2.54R 
69419.05021.817-2.767-0.68  X
72059.52065.602-6.082-1.49  X
72240.48032.0668.4142.03R 
80230.95042.586-11.636-2.81R 
80530.95039.868-8.918-2.16R 
81440.48032.0738.4072.03R 
82361.90048.14813.7523.33R 
83333.33044.054-10.724-2.60R 
85938.10049.275-11.175-2.70R 
86847.62037.7899.8312.38R 
89130.95019.94511.0052.66R 
89328.57048.860-20.290-4.92R 
90545.24055.416-10.176-2.46R 
92454.76056.019-1.259-0.31  X
97764.29053.10711.1832.72R 
98357.14047.6839.4572.29R 
98850.00044.5015.4991.34  X
99373.81064.0469.7642.36R 
99733.33024.4588.8722.14R 
100354.76045.1289.6322.33R 
102533.33047.705-14.375-3.49R 
105957.14048.6638.4772.05R 
110547.62037.31910.3012.49R 
115059.52044.33915.1813.67R 
116052.38040.05112.3292.97R 
116330.95041.598-10.648-2.57R 
116569.05056.75712.2932.97R 
116959.52049.27510.2452.48R 
119842.86051.516-8.656-2.09R 
120776.19063.53412.6563.07R 
121326.19040.278-14.088-3.41R 
122840.48050.571-10.091-2.45R 
123559.52050.1759.3452.26R 
123757.14048.2398.9012.15R 
124664.29055.4168.8742.14R 
126245.24035.9579.2832.24R 
126357.14043.95113.1893.18R 
128233.33036.011-2.681-0.65  X
128445.24056.564-11.324-2.74R 
128547.62060.657-13.037-3.15R 
130326.19036.567-10.377-2.51R 
130535.71045.499-9.789-2.36R 
131130.95040.089-9.139-2.21R 
134526.19025.1051.0850.26  X
135342.86053.175-10.315-2.49R 
136526.19017.8348.3562.01R 
137747.62035.22212.3983.00R 
138069.05055.41613.6343.29R 
138450.00038.49611.5042.78R 
141426.19035.345-9.155-2.21R 
150261.90050.19511.7052.84R 
152638.10025.45012.6503.05R 
153514.29024.088-9.798-2.36R 
154438.10029.1658.9352.16R 
154850.00040.4559.5452.31R 
156538.10042.846-4.746-1.16  X
158266.67055.43711.2332.72R 
R  残差大
X  异常 X

选择备择模型

研究人员决定检查最佳TreeNet® 模型的结果。

  1. 在 的 发现最佳模型 (连续响应)搜索结果中,在“逐步选择最佳多元回归模型项”之后,单击 选择备择模型
  2. 模型类型中,选择 TreeNet®
  3. 在 中 选择现有模型,选择具有最佳值 R2的第六个模型。
  4. 单击 显示结果

解释结果

此分析生长 300 棵树,最佳树数为 63。该模型使用 0.1 的学习率和 0.7 的子样本分数。终端节点的最大数量为 6。

方法

损失函数平方误差
选择最优树数量的标准最大 R 平方
模型验证5 折叠交叉验证
学习速率0.1
子样本部分0.7
每个树的最大终端节点数6
最小终端节点大小3
为进行节点拆分而选定的预测变量数预测变量总数 = 8
已使用的行数1546
未使用的行数70

响应信息

均值标准差最小值下四分位数中位数上四分位数最大值
31.011014.0820019.0530.9540.4876.19

R 平方与树数图显示生成的树数的整个曲线。当树数为 63 时,检验数据的最优值约为 91%。

模型汇总

总预测变量8
重要预测变量8
增长的树数300
最优树数63
统计量训练测试
R 平方91.93%90.90%
均方根误差 (RMSE)3.99924.2471
均方误差 (MSE)15.993218.0375
平均绝对偏差 (MAD)2.99433.1613
平均绝对百分比误差 (MAPE)0.10880.1130

模型汇总表显示,当树数为 63 时,R2 值对于训练数据约为 92%,对于测试数据约为 91%。

相对变量重要性图按照在对树序列上的预测变量进行拆分时预测变量对模型的改进作用的顺序,绘制预测变量的重要性图。最重要的预测变量是 现在症状数量。如果顶部预测变量 现在症状数量的贡献为 100%,则下一个重要变量 对正常活动的限制的贡献为 44.4%。这意味着 对正常活动的限制 在此回归模型中的重要性 现在症状数量 是 44.4%。

拟合疾病分数与实际疾病分数的散点图显示了训练数据和检验数据的拟合值与实际值之间的关系。这些点大约落在 y=x 的参考线附近,这表明模型与数据拟合良好。

使用部分依赖图可以深入了解重要变量或变量对如何影响拟合响应值。部分依赖图显示响应与变量之间的关系是线性、单调还是更复杂的关系。

第一个图说明了疾病评分与患者现在的症状数量之间的关系。您可以将鼠标悬停在各个数据点上以查看特定的 x 值和 y 值。例如,图表右侧的最高点是患者有 13 种症状且拟合疾病评分约为 45 时。

第二个图说明,当患者报告其正常活动受限时,拟合疾病评分增加约 5 分。

第三张图表明,当患者报告通常感觉非常糟糕时,拟合疾病评分增加约 5 分。

第四个图说明了当患者报告严重呼吸短促时,拟合疾病评分增加约 4 分。

最后一个图说明了许多症状的拟合疾病评分如何取决于患者是否也限制了他们的正常活动。对于相同数量的症状,同时报告正常活动受限的患者具有更高的拟合疾病评分。