此命令适用于预测分析模块。单击此处了解更多关于如何激活模块的信息。
医疗保健系统的研究人员从其区域医疗诊所收集数据。特别是,研究小组对医生对病人的初步检查数据感兴趣。在初步检查结束时,医生会根据每位患者的疾病严重程度给患者打分。研究人员希望开发一份简短的问卷,以帮助在医生检查之前优先考虑病情最严重的患者。通过咨询主题专家和初步探索数据,团队选择 8 个变量来预测严重性评分。研究人员希望在进一步完善模型之前确定预测严重性评分的最佳模型类型。
研究人员用来 发现最佳模型 (连续响应) 比较5种模型的预测性能:多元回归,TreeNet®,Random Forests® CART® 和MARS®。该团队计划进一步探索具有最佳预测性能的模型类型。
“模型选择”表比较了模型类型的性能。多元回归模型的最大值为 R2。以下结果适用于最佳多元回归模型。
要确定响应与模型中每个项之间的关联在统计意义上是否显著,请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项与响应之间没有关联。通常,显著性水平(用 α 或 alpha 表示)为 .05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。在这些结果中,两个交互作用项的 p 值大于 0.05:严重呼吸急促*严重头痛 和 严重头痛*严重睡眠障碍 。当研究人员探索其他多元回归模型时,他们将使用模型性能指标和残差图来探索将这些项包含在模型中的效果。
模型汇总表显示训练 R2 和测试 R2 都约为 91%。检验均方根误差 (RMSE) 表示数据值与拟合值的距离约为 4。由于RMSE在疾病评分的量表上很小,研究人员乐观地认为,少量的问题足以帮助确定患者的优先级。
异常信息的拟合和诊断表显示了不很好地遵循建议的回归方程的数据点。这些是来自完整数据集的拟合和诊断。
字母 R 表示残差较大的点。检查异常数据点以查看模型可能拟合不佳的预测变量值。字母X表示高杠杆点。相对于数据集的其余部分,具有高杠杆率的点具有不寻常的预测因子组合。
大残差和高杠杆点是潜在的影响点。例如,包含或不包含有影响的点可能会改变系数是否统计意义显著。如果看到有影响的观测值,请确定该观测值是数据输入误差还是测量误差。如果观测值不是错误,请确定观测值对结果的影响程度。当研究人员进一步探索该模型时,他们将在有和没有观察的情况下拟合模型。然后,他们将比较系数、p 值、R2和其他模型信息。如果在移除有影响的观测值时模型发生显著变化,请进一步检查模型以确定是否错误地指定了模型。您可能需要收集更多数据以解决此问题。
拟合疾病分数与实际疾病分数的散点图显示了训练数据和检验数据的拟合值与实际值之间的关系。这些点大约落在 y=x 的参考线附近,这表明模型与数据拟合良好。
拟合具有线性项和二阶项的回归模型。 |
---|
使用平方损失函数拟合 6 TreeNet® 回归模型。 |
使用与 1546 的训练数据大小相同的 Bootstrap 样本数量拟合 3 Random Forests® 回归模型。 |
拟合最优 CART® 回归模型。 |
拟合最优 MARS® 回归模型。 |
从 5 折叠交叉评估中选择具有最大 R 平方的模型。 |
总行数: 1546 |
用于回归模型的行: 1546 |
用于基于树的模型的行: 1546 |
均值 | 标准差 | 最小值 | 下四分位数 | 中位数 | 上四分位数 | 最大值 |
---|---|---|---|---|---|---|
31.0110 | 14.0820 | 0 | 19.05 | 30.95 | 40.48 | 76.19 |
类型内的最佳模型 | R 平方 (%) | 平均绝对偏差 |
---|---|---|
多元回归* | 91.23 | 3.1011 |
MARS® | 91.05 | 3.1604 |
TreeNet® | 90.90 | 3.1613 |
Random Forests® | 89.93 | 3.3248 |
CART® | 86.11 | 3.9369 |
疾病严重性评分 | = | 1.241 + 2.5386 现在症状数量 + 0.0 痰的高产量_0 + 3.900 痰的高产量_1 + 0.0 严重呼吸急促_0 + 0.94 严重呼吸急促_1 + 0.0 严重头痛_0 + 4.094 严重头痛_1 + 0.0 严重睡眠障碍_0 + 3.884 严重睡眠障碍_1 + 0.0 通常感觉很糟_0 + 3.473 通常感觉很糟_1 + 0.0 对正常活动的限制_0 + 3.140 对正常活动的限制_1 + 0.0 现在症状数量*严重呼吸急促_0 + 0.373 现在症状数量*严重呼吸急促_1 + 0.0 现在症状数量*严重胸痛_0 + 0.4765 现在症状数量*严重胸痛_1 + 0.0 严重呼吸急促*严重睡 眠障碍_0 0 + 0.0 严重呼吸急促*严重睡眠障碍_0 1 + 0.0 严重呼吸急促*严重睡眠障碍_1 0 + 1.337 严重呼吸急促*严重睡眠障碍_1 1 + 0.0 通常感觉很糟*对正常活动的限制_0 0 + 0.0 通常感觉很糟*对正常活动的限制_0 1 + 0.0 通常感觉很糟*对正常活动的限制_1 0 + 1.372 通常感觉很糟*对正常活动的限制_1 1 |
---|
项 | 系数 | 系数标准误 | T 值 | P 值 | 方差膨胀因子 |
---|---|---|---|---|---|
常量 | 1.241 | 0.385 | 3.22 | 0.001 | |
现在症状数量 | 2.5386 | 0.0593 | 42.81 | 0.000 | 1.95 |
痰的高产量 | |||||
1 | 3.900 | 0.225 | 17.35 | 0.000 | 1.10 |
严重呼吸急促 | |||||
1 | 0.94 | 1.18 | 0.80 | 0.424 | 23.23 |
严重头痛 | |||||
1 | 4.094 | 0.253 | 16.18 | 0.000 | 1.25 |
严重睡眠障碍 | |||||
1 | 3.884 | 0.284 | 13.69 | 0.000 | 1.73 |
通常感觉很糟 | |||||
1 | 3.473 | 0.343 | 10.14 | 0.000 | 2.62 |
对正常活动的限制 | |||||
1 | 3.140 | 0.424 | 7.40 | 0.000 | 3.98 |
现在症状数量*严重呼吸急促 | |||||
1 | 0.373 | 0.133 | 2.81 | 0.005 | 26.80 |
现在症状数量*严重胸痛 | |||||
1 | 0.4765 | 0.0312 | 15.26 | 0.000 | 1.25 |
严重呼吸急促*严重睡眠障碍 | |||||
1 1 | 1.337 | 0.528 | 2.53 | 0.011 | 3.26 |
通常感觉很糟*对正常活动的限制 | |||||
1 1 | 1.372 | 0.527 | 2.61 | 0.009 | 5.73 |
统计量 | 训练 | 测试 |
---|---|---|
R 平方 | 91.35% | 91.23% |
均方根误差 (RMSE) | 4.1562 | 4.1679 |
均方误差 (MSE) | 17.2741 | 17.3714 |
平均绝对偏差 (MAD) | 3.0798 | 3.1011 |
R 平方(调整) | 91.29% | |
R 平方(预测) | 91.19% |
来源 | 自由度 | Adj SS | Adj MS | F 值 | P 值 |
---|---|---|---|---|---|
回归 | 11 | 279881 | 25443.7 | 1472.94 | 0.000 |
现在症状数量 | 1 | 31655 | 31654.8 | 1832.51 | 0.000 |
痰的高产量 | 1 | 5202 | 5201.8 | 301.14 | 0.000 |
严重呼吸急促 | 1 | 11 | 11.1 | 0.64 | 0.424 |
严重头痛 | 1 | 4520 | 4520.0 | 261.66 | 0.000 |
严重睡眠障碍 | 1 | 3239 | 3238.8 | 187.50 | 0.000 |
通常感觉很糟 | 1 | 1776 | 1775.6 | 102.79 | 0.000 |
对正常活动的限制 | 1 | 945 | 945.4 | 54.73 | 0.000 |
现在症状数量*严重呼吸急促 | 1 | 136 | 136.4 | 7.90 | 0.005 |
现在症状数量*严重胸痛 | 1 | 4023 | 4023.4 | 232.92 | 0.000 |
严重呼吸急促*严重睡眠障碍 | 1 | 111 | 110.7 | 6.41 | 0.011 |
通常感觉很糟*对正常活动的限制 | 1 | 117 | 117.3 | 6.79 | 0.009 |
误差 | 1534 | 26498 | 17.3 | ||
失拟 | 484 | 9247 | 19.1 | 1.16 | 0.025 |
纯误差 | 1050 | 17251 | 16.4 | ||
合计 | 1545 | 306379 |
观测值 | 疾病严重性评分 | 拟合值 | 残差 | 标准化残差 | ||
---|---|---|---|---|---|---|
11 | 66.670 | 56.757 | 9.913 | 2.40 | R | |
13 | 52.380 | 41.177 | 11.203 | 2.71 | R | |
16 | 59.520 | 48.604 | 10.916 | 2.64 | R | |
33 | 50.000 | 60.657 | -10.657 | -2.57 | R | |
48 | 64.290 | 55.416 | 8.874 | 2.14 | R | |
52 | 61.900 | 53.369 | 8.531 | 2.06 | R | |
54 | 50.000 | 41.598 | 8.402 | 2.03 | R | |
56 | 50.000 | 58.328 | -8.328 | -2.02 | R | |
58 | 38.100 | 46.485 | -8.385 | -2.03 | R | |
106 | 59.520 | 49.028 | 10.492 | 2.53 | R | |
114 | 59.520 | 47.160 | 12.360 | 2.99 | R | |
128 | 69.050 | 58.328 | 10.722 | 2.59 | R | |
144 | 50.000 | 40.471 | 9.529 | 2.30 | R | |
173 | 47.620 | 56.757 | -9.137 | -2.21 | R | |
174 | 42.860 | 34.000 | 8.860 | 2.14 | R | |
191 | 42.860 | 52.051 | -9.191 | -2.23 | R | |
198 | 59.520 | 48.411 | 11.109 | 2.68 | R | |
202 | 73.810 | 64.046 | 9.764 | 2.36 | R | |
205 | 47.620 | 37.559 | 10.061 | 2.43 | R | |
213 | 35.710 | 34.970 | 0.740 | 0.18 | X | |
217 | 16.670 | 19.053 | -2.383 | -0.58 | X | |
239 | 47.620 | 58.328 | -10.708 | -2.59 | R | |
241 | 71.430 | 66.311 | 5.119 | 1.25 | X | |
243 | 14.290 | 24.088 | -9.798 | -2.36 | R | |
304 | 50.000 | 41.130 | 8.870 | 2.14 | R | |
307 | 14.290 | 10.920 | 3.370 | 0.83 | X | |
352 | 64.290 | 51.254 | 13.036 | 3.15 | R | |
369 | 38.100 | 49.275 | -11.175 | -2.70 | R | |
391 | 16.670 | 32.073 | -15.403 | -3.72 | R | |
392 | 0.000 | 11.395 | -11.395 | -2.75 | R | |
395 | 0.000 | 13.934 | -13.934 | -3.36 | R | |
424 | 40.480 | 52.504 | -12.024 | -2.90 | R | |
425 | 47.620 | 34.597 | 13.023 | 3.16 | R | |
474 | 47.620 | 38.538 | 9.082 | 2.21 | R | |
479 | 40.480 | 30.896 | 9.584 | 2.31 | R | |
489 | 16.670 | 25.023 | -8.353 | -2.02 | R | |
491 | 30.950 | 24.348 | 6.602 | 1.61 | X | |
493 | 57.140 | 44.339 | 12.801 | 3.09 | R | |
495 | 35.710 | 25.480 | 10.230 | 2.47 | R | |
509 | 38.100 | 26.696 | 11.404 | 2.77 | R | |
520 | 73.810 | 58.328 | 15.482 | 3.75 | R | |
537 | 38.100 | 28.358 | 9.742 | 2.35 | R | |
550 | 14.290 | 24.458 | -10.168 | -2.45 | R | |
583 | 42.860 | 53.369 | -10.509 | -2.54 | R | |
694 | 19.050 | 21.817 | -2.767 | -0.68 | X | |
720 | 59.520 | 65.602 | -6.082 | -1.49 | X | |
722 | 40.480 | 32.066 | 8.414 | 2.03 | R | |
802 | 30.950 | 42.586 | -11.636 | -2.81 | R | |
805 | 30.950 | 39.868 | -8.918 | -2.16 | R | |
814 | 40.480 | 32.073 | 8.407 | 2.03 | R | |
823 | 61.900 | 48.148 | 13.752 | 3.33 | R | |
833 | 33.330 | 44.054 | -10.724 | -2.60 | R | |
859 | 38.100 | 49.275 | -11.175 | -2.70 | R | |
868 | 47.620 | 37.789 | 9.831 | 2.38 | R | |
891 | 30.950 | 19.945 | 11.005 | 2.66 | R | |
893 | 28.570 | 48.860 | -20.290 | -4.92 | R | |
905 | 45.240 | 55.416 | -10.176 | -2.46 | R | |
924 | 54.760 | 56.019 | -1.259 | -0.31 | X | |
977 | 64.290 | 53.107 | 11.183 | 2.72 | R | |
983 | 57.140 | 47.683 | 9.457 | 2.29 | R | |
988 | 50.000 | 44.501 | 5.499 | 1.34 | X | |
993 | 73.810 | 64.046 | 9.764 | 2.36 | R | |
997 | 33.330 | 24.458 | 8.872 | 2.14 | R | |
1003 | 54.760 | 45.128 | 9.632 | 2.33 | R | |
1025 | 33.330 | 47.705 | -14.375 | -3.49 | R | |
1059 | 57.140 | 48.663 | 8.477 | 2.05 | R | |
1105 | 47.620 | 37.319 | 10.301 | 2.49 | R | |
1150 | 59.520 | 44.339 | 15.181 | 3.67 | R | |
1160 | 52.380 | 40.051 | 12.329 | 2.97 | R | |
1163 | 30.950 | 41.598 | -10.648 | -2.57 | R | |
1165 | 69.050 | 56.757 | 12.293 | 2.97 | R | |
1169 | 59.520 | 49.275 | 10.245 | 2.48 | R | |
1198 | 42.860 | 51.516 | -8.656 | -2.09 | R | |
1207 | 76.190 | 63.534 | 12.656 | 3.07 | R | |
1213 | 26.190 | 40.278 | -14.088 | -3.41 | R | |
1228 | 40.480 | 50.571 | -10.091 | -2.45 | R | |
1235 | 59.520 | 50.175 | 9.345 | 2.26 | R | |
1237 | 57.140 | 48.239 | 8.901 | 2.15 | R | |
1246 | 64.290 | 55.416 | 8.874 | 2.14 | R | |
1262 | 45.240 | 35.957 | 9.283 | 2.24 | R | |
1263 | 57.140 | 43.951 | 13.189 | 3.18 | R | |
1282 | 33.330 | 36.011 | -2.681 | -0.65 | X | |
1284 | 45.240 | 56.564 | -11.324 | -2.74 | R | |
1285 | 47.620 | 60.657 | -13.037 | -3.15 | R | |
1303 | 26.190 | 36.567 | -10.377 | -2.51 | R | |
1305 | 35.710 | 45.499 | -9.789 | -2.36 | R | |
1311 | 30.950 | 40.089 | -9.139 | -2.21 | R | |
1345 | 26.190 | 25.105 | 1.085 | 0.26 | X | |
1353 | 42.860 | 53.175 | -10.315 | -2.49 | R | |
1365 | 26.190 | 17.834 | 8.356 | 2.01 | R | |
1377 | 47.620 | 35.222 | 12.398 | 3.00 | R | |
1380 | 69.050 | 55.416 | 13.634 | 3.29 | R | |
1384 | 50.000 | 38.496 | 11.504 | 2.78 | R | |
1414 | 26.190 | 35.345 | -9.155 | -2.21 | R | |
1502 | 61.900 | 50.195 | 11.705 | 2.84 | R | |
1526 | 38.100 | 25.450 | 12.650 | 3.05 | R | |
1535 | 14.290 | 24.088 | -9.798 | -2.36 | R | |
1544 | 38.100 | 29.165 | 8.935 | 2.16 | R | |
1548 | 50.000 | 40.455 | 9.545 | 2.31 | R | |
1565 | 38.100 | 42.846 | -4.746 | -1.16 | X | |
1582 | 66.670 | 55.437 | 11.233 | 2.72 | R |
研究人员决定检查最佳TreeNet® 模型的结果。
此分析生长 300 棵树,最佳树数为 63。该模型使用 0.1 的学习率和 0.7 的子样本分数。终端节点的最大数量为 6。
损失函数 | 平方误差 |
---|---|
选择最优树数量的标准 | 最大 R 平方 |
模型验证 | 5 折叠交叉验证 |
学习速率 | 0.1 |
子样本部分 | 0.7 |
每个树的最大终端节点数 | 6 |
最小终端节点大小 | 3 |
为进行节点拆分而选定的预测变量数 | 预测变量总数 = 8 |
已使用的行数 | 1546 |
未使用的行数 | 70 |
均值 | 标准差 | 最小值 | 下四分位数 | 中位数 | 上四分位数 | 最大值 |
---|---|---|---|---|---|---|
31.0110 | 14.0820 | 0 | 19.05 | 30.95 | 40.48 | 76.19 |
总预测变量 | 8 |
---|---|
重要预测变量 | 8 |
增长的树数 | 300 |
最优树数 | 63 |
统计量 | 训练 | 测试 |
---|---|---|
R 平方 | 91.93% | 90.90% |
均方根误差 (RMSE) | 3.9992 | 4.2471 |
均方误差 (MSE) | 15.9932 | 18.0375 |
平均绝对偏差 (MAD) | 2.9943 | 3.1613 |
平均绝对百分比误差 (MAPE) | 0.1088 | 0.1130 |
模型汇总表显示,当树数为 63 时,R2 值对于训练数据约为 92%,对于测试数据约为 91%。