Weibull 分布的发现最佳模型 (连续响应)

注意

关于本主题

搜索最佳型号类型
选择备择模型

搜索最佳型号类型

医疗保健系统的研究人员从其区域医疗诊所收集数据。特别是，研究小组对医生对病人的初步检查数据感兴趣。在初步检查结束时，医生会根据每位患者的疾病严重程度给患者打分。研究人员希望开发一份简短的问卷，以帮助在医生检查之前优先考虑病情最严重的患者。通过咨询主题专家和初步探索数据，团队选择 8 个变量来预测严重性评分。研究人员希望在进一步完善模型之前确定预测严重性评分的最佳模型类型。

研究人员用来发现最佳模型 (连续响应) 比较5种模型的预测性能：多元回归，TreeNet^®，Random Forests^® CART^® 和MARS^®。该团队计划进一步探索具有最佳预测性能的模型类型。

使用以下链接查看不同数据集的每种模型类型的示例：

打开样本数据疾病.MWX。
选择预测分析模块 > 自动化机器学习 > 发现最佳模型 (连续响应)。
在响应中，输入’疾病严重性评分’。
在连续预测变量中，输入’现在症状数量’。
在中类别预测变量输入“痰的高产量”-”。对正常活动的限制
单击确定。

解释结果

“模型选择”表比较了模型类型的性能。多元回归模型的最大值为 R²。以下结果适用于最佳多元回归模型。

要确定响应与模型中每个项之间的关联在统计意义上是否显著，请将该项的 P 值与显著性水平进行比较以评估原假设。原假设声明该项与响应之间没有关联。通常，显著性水平（用 α 或 alpha 表示）为 .05 即可。显著性水平 0.05 指示在实际上不存在关联时得出存在关联的风险为 5%。在这些结果中，两个交互作用项的 p 值大于 0.05：严重呼吸急促*严重头痛和严重头痛*严重睡眠障碍。当研究人员探索其他多元回归模型时，他们将使用模型性能指标和残差图来探索将这些项包含在模型中的效果。

模型汇总表显示训练 R² 和测试 R² 都约为 91%。检验均方根误差（RMSE）表示数据值与拟合值的距离约为 4。由于RMSE在疾病评分的量表上很小，研究人员乐观地认为，少量的问题足以帮助确定患者的优先级。

异常信息的拟合和诊断表显示了不很好地遵循建议的回归方程的数据点。这些是来自完整数据集的拟合和诊断。

字母 R 表示残差较大的点。检查异常数据点以查看模型可能拟合不佳的预测变量值。字母X表示高杠杆点。相对于数据集的其余部分，具有高杠杆率的点具有不寻常的预测因子组合。

大残差和高杠杆点是潜在的影响点。例如，包含或不包含有影响的点可能会改变系数是否统计意义显著。如果看到有影响的观测值，请确定该观测值是数据输入误差还是测量误差。如果观测值不是错误，请确定观测值对结果的影响程度。当研究人员进一步探索该模型时，他们将在有和没有观察的情况下拟合模型。然后，他们将比较系数、p 值、R²和其他模型信息。如果在移除有影响的观测值时模型发生显著变化，请进一步检查模型以确定是否错误地指定了模型。您可能需要收集更多数据以解决此问题。

拟合疾病分数与实际疾病分数的散点图显示了训练数据和检验数据的拟合值与实际值之间的关系。这些点大约落在 y=x 的参考线附近，这表明模型与数据拟合良好。

拟合具有线性项和二阶项的回归模型。
使用平方损失函数拟合 6 TreeNet® 回归模型。
使用与 1546 的训练数据大小相同的 Bootstrap 样本数量拟合 3 Random Forests® 回归模型。
拟合最优 CART® 回归模型。
拟合最优 MARS® 回归模型。
从 5 折叠交叉评估中选择具有最大 R 平方的模型。
总行数: 1546
用于回归模型的行: 1546
用于基于树的模型的行: 1546

类型内的最佳模型	R 平方 (%)	平均绝对偏差
多元回归*	91.23	3.1011
MARS®	91.05	3.1604
TreeNet®	90.90	3.1613
Random Forests®	89.93	3.3248
CART®	86.11	3.9369

疾病严重性评分	=	1.241 + 2.5386 现在症状数量 + 0.0 痰的高产量_0 + 3.900 痰的高产量_1 + 0.0 严重呼吸急促_0 + 0.94 严重呼吸急促_1 + 0.0 严重头痛_0 + 4.094 严重头痛_1 + 0.0 严重睡眠障碍_0 + 3.884 严重睡眠障碍_1 + 0.0 通常感觉很糟_0 + 3.473 通常感觉很糟_1 + 0.0 对正常活动的限制_0 + 3.140 对正常活动的限制_1 + 0.0 现在症状数量严重呼吸急促_0 + 0.373 现在症状数量严重呼吸急促_1 + 0.0 现在症状数量严重胸痛_0 + 0.4765 现在症状数量严重胸痛_1 + 0.0 严重呼吸急促严重睡眠障碍_0 0 + 0.0 严重呼吸急促严重睡眠障碍_0 1 + 0.0 严重呼吸急促严重睡眠障碍_1 0 + 1.337 严重呼吸急促严重睡眠障碍_1 1 + 0.0 通常感觉很糟对正常活动的限制_0 0 + 0.0 通常感觉很糟对正常活动的限制_0 1 + 0.0 通常感觉很糟对正常活动的限制_1 0 + 1.372 通常感觉很糟对正常活动的限制_1 1

项	系数	系数标准误	T 值	P 值	方差膨胀因子
常量	1.241	0.385	3.22	0.001
现在症状数量	2.5386	0.0593	42.81	0.000	1.95
痰的高产量
1	3.900	0.225	17.35	0.000	1.10
严重呼吸急促
1	0.94	1.18	0.80	0.424	23.23
严重头痛
1	4.094	0.253	16.18	0.000	1.25
严重睡眠障碍
1	3.884	0.284	13.69	0.000	1.73
通常感觉很糟
1	3.473	0.343	10.14	0.000	2.62
对正常活动的限制
1	3.140	0.424	7.40	0.000	3.98
现在症状数量*严重呼吸急促
1	0.373	0.133	2.81	0.005	26.80
现在症状数量*严重胸痛
1	0.4765	0.0312	15.26	0.000	1.25
严重呼吸急促*严重睡眠障碍
1 1	1.337	0.528	2.53	0.011	3.26
通常感觉很糟*对正常活动的限制
1 1	1.372	0.527	2.61	0.009	5.73

统计量	训练	测试
R 平方	91.35%	91.23%
均方根误差 (RMSE)	4.1562	4.1679
均方误差 (MSE)	17.2741	17.3714
平均绝对偏差 (MAD)	3.0798	3.1011

R 平方(调整)	91.29%
R 平方(预测)		91.19%

来源	自由度	Adj SS	Adj MS	F 值	P 值
回归	11	279881	25443.7	1472.94	0.000
现在症状数量	1	31655	31654.8	1832.51	0.000
痰的高产量	1	5202	5201.8	301.14	0.000
严重呼吸急促	1	11	11.1	0.64	0.424
严重头痛	1	4520	4520.0	261.66	0.000
严重睡眠障碍	1	3239	3238.8	187.50	0.000
通常感觉很糟	1	1776	1775.6	102.79	0.000
对正常活动的限制	1	945	945.4	54.73	0.000
现在症状数量*严重呼吸急促	1	136	136.4	7.90	0.005
现在症状数量*严重胸痛	1	4023	4023.4	232.92	0.000
严重呼吸急促*严重睡眠障碍	1	111	110.7	6.41	0.011
通常感觉很糟*对正常活动的限制	1	117	117.3	6.79	0.009
误差	1534	26498	17.3
失拟	484	9247	19.1	1.16	0.025
纯误差	1050	17251	16.4
合计	1545	306379

观测值	疾病严重性评分	拟合值	残差	标准化残差
11	66.670	56.757	9.913	2.40	R
13	52.380	41.177	11.203	2.71	R
16	59.520	48.604	10.916	2.64	R
33	50.000	60.657	-10.657	-2.57	R
48	64.290	55.416	8.874	2.14	R
52	61.900	53.369	8.531	2.06	R
54	50.000	41.598	8.402	2.03	R
56	50.000	58.328	-8.328	-2.02	R
58	38.100	46.485	-8.385	-2.03	R
106	59.520	49.028	10.492	2.53	R
114	59.520	47.160	12.360	2.99	R
128	69.050	58.328	10.722	2.59	R
144	50.000	40.471	9.529	2.30	R
173	47.620	56.757	-9.137	-2.21	R
174	42.860	34.000	8.860	2.14	R
191	42.860	52.051	-9.191	-2.23	R
198	59.520	48.411	11.109	2.68	R
202	73.810	64.046	9.764	2.36	R
205	47.620	37.559	10.061	2.43	R
213	35.710	34.970	0.740	0.18		X
217	16.670	19.053	-2.383	-0.58		X
239	47.620	58.328	-10.708	-2.59	R
241	71.430	66.311	5.119	1.25		X
243	14.290	24.088	-9.798	-2.36	R
304	50.000	41.130	8.870	2.14	R
307	14.290	10.920	3.370	0.83		X
352	64.290	51.254	13.036	3.15	R
369	38.100	49.275	-11.175	-2.70	R
391	16.670	32.073	-15.403	-3.72	R
392	0.000	11.395	-11.395	-2.75	R
395	0.000	13.934	-13.934	-3.36	R
424	40.480	52.504	-12.024	-2.90	R
425	47.620	34.597	13.023	3.16	R
474	47.620	38.538	9.082	2.21	R
479	40.480	30.896	9.584	2.31	R
489	16.670	25.023	-8.353	-2.02	R
491	30.950	24.348	6.602	1.61		X
493	57.140	44.339	12.801	3.09	R
495	35.710	25.480	10.230	2.47	R
509	38.100	26.696	11.404	2.77	R
520	73.810	58.328	15.482	3.75	R
537	38.100	28.358	9.742	2.35	R
550	14.290	24.458	-10.168	-2.45	R
583	42.860	53.369	-10.509	-2.54	R
694	19.050	21.817	-2.767	-0.68		X
720	59.520	65.602	-6.082	-1.49		X
722	40.480	32.066	8.414	2.03	R
802	30.950	42.586	-11.636	-2.81	R
805	30.950	39.868	-8.918	-2.16	R
814	40.480	32.073	8.407	2.03	R
823	61.900	48.148	13.752	3.33	R
833	33.330	44.054	-10.724	-2.60	R
859	38.100	49.275	-11.175	-2.70	R
868	47.620	37.789	9.831	2.38	R
891	30.950	19.945	11.005	2.66	R
893	28.570	48.860	-20.290	-4.92	R
905	45.240	55.416	-10.176	-2.46	R
924	54.760	56.019	-1.259	-0.31		X
977	64.290	53.107	11.183	2.72	R
983	57.140	47.683	9.457	2.29	R
988	50.000	44.501	5.499	1.34		X
993	73.810	64.046	9.764	2.36	R
997	33.330	24.458	8.872	2.14	R
1003	54.760	45.128	9.632	2.33	R
1025	33.330	47.705	-14.375	-3.49	R
1059	57.140	48.663	8.477	2.05	R
1105	47.620	37.319	10.301	2.49	R
1150	59.520	44.339	15.181	3.67	R
1160	52.380	40.051	12.329	2.97	R
1163	30.950	41.598	-10.648	-2.57	R
1165	69.050	56.757	12.293	2.97	R
1169	59.520	49.275	10.245	2.48	R
1198	42.860	51.516	-8.656	-2.09	R
1207	76.190	63.534	12.656	3.07	R
1213	26.190	40.278	-14.088	-3.41	R
1228	40.480	50.571	-10.091	-2.45	R
1235	59.520	50.175	9.345	2.26	R
1237	57.140	48.239	8.901	2.15	R
1246	64.290	55.416	8.874	2.14	R
1262	45.240	35.957	9.283	2.24	R
1263	57.140	43.951	13.189	3.18	R
1282	33.330	36.011	-2.681	-0.65		X
1284	45.240	56.564	-11.324	-2.74	R
1285	47.620	60.657	-13.037	-3.15	R
1303	26.190	36.567	-10.377	-2.51	R
1305	35.710	45.499	-9.789	-2.36	R
1311	30.950	40.089	-9.139	-2.21	R
1345	26.190	25.105	1.085	0.26		X
1353	42.860	53.175	-10.315	-2.49	R
1365	26.190	17.834	8.356	2.01	R
1377	47.620	35.222	12.398	3.00	R
1380	69.050	55.416	13.634	3.29	R
1384	50.000	38.496	11.504	2.78	R
1414	26.190	35.345	-9.155	-2.21	R
1502	61.900	50.195	11.705	2.84	R
1526	38.100	25.450	12.650	3.05	R
1535	14.290	24.088	-9.798	-2.36	R
1544	38.100	29.165	8.935	2.16	R
1548	50.000	40.455	9.545	2.31	R
1565	38.100	42.846	-4.746	-1.16		X
1582	66.670	55.437	11.233	2.72	R

选择备择模型

研究人员决定检查最佳TreeNet^® 模型的结果。

在的结果中发现最佳模型 (连续响应)，选择选择备择模型。
在模型类型中，选择 TreeNet®。
在中选择现有模型，选择具有最佳值 R²的第六个模型。
单击显示结果。

解释结果

此分析生长 300 棵树，最佳树数为 63。该模型使用 0.1 的学习率和 0.7 的子样本分数。终端节点的最大数量为 6。

方法

损失函数	平方误差
选择最优树数量的标准	最大 R 平方
模型验证	5 折叠交叉验证
学习速率	0.1
子样本部分	0.7
每个树的最大终端节点数	6
最小终端节点大小	3
为进行节点拆分而选定的预测变量数	预测变量总数 = 8
已使用的行数	1546
未使用的行数	70

响应信息

均值	标准差	最小值	下四分位数	中位数	上四分位数	最大值
31.0110	14.0820	0	19.05	30.95	40.48	76.19

R 平方与树数图显示生成的树数的整个曲线。当树数为 63 时，检验数据的最优值约为 91%。

模型汇总

总预测变量	8
重要预测变量	8
增长的树数	300
最优树数	63

统计量	训练	测试
R 平方	91.93%	90.90%
均方根误差 (RMSE)	3.9992	4.2471
均方误差 (MSE)	15.9932	18.0375
平均绝对偏差 (MAD)	2.9943	3.1613
平均绝对百分比误差 (MAPE)	0.1088	0.1130