CART® 回归中归因于最大残差的误差百分比统计量

使用误差百分比统计量可检查树中拟合与最差拟合的误差量。当分析使用验证方法时,还可以比较用于训练和检验数据的树的统计量。

表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方,因此最极端的观测值通常对统计量的影响最大。如果 MSE 与其他两个度量的误差百分比之间的差异较大,则表明树对选择以最小平方误差或最小绝对偏差来分裂节点更为敏感。

使用验证方法时,Minitab 会为训练数据和检验数据单独计算统计量。您可以比较统计量,检查树在训练数据和新数据上的相对性能。检验统计量通常能够更好地衡量树对新数据的执行效果。

一种可能的模式是,一小部分残差涉及很大一部分的数据误差。例如,在下表中,数据集的总大小约为 4500。从 MSE 的角度来看,这表示 1% 的数据导致了约 12% 的误差。在这种情况下,导致树产生大部分误差的 45 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合,则树的整体性能会有相对较大的提高。

此条件还指示树中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例,因此其他案例的拟合相对而言更准确。

17 节点 CART® 回归: 服务年限 与 入学年龄, 首次使用药物的年龄, 前30天逮捕, 等待服务的日子, 以前的治疗情节, 受教育年数, 其他兴奋剂使用, 计划药物治疗, 精神病, 怀孕, 性别, 老兵, 酒精使用, 可卡因使用, 大麻使用, 海洛因使用, 其他鸦片使用, 五氯苯酚使用, 迈赫塔多内使用, 其他致幻剂使用, 甲基安非他明的使用, 其他安非他明用途, 苯并二氮杂卓使用, 其他镇静剂使用, 巴比图酸盐使用, 其他镇静剂使用_1, 吸入剂使用, 非处方药使用, 其他药物使用, 静脉注射药物使用, 生活安排, 药物滥用的频率, 健康保险, 婚姻状况, 种族, 收入来源, 子的主要引入路由, 自助出勤, 付款来源, 比赛, 就业状况, 转介来源, 滥用的主要物质, DSM 诊断

归因于最大残差的误差百分比统计量 训练 测试 最大残差百分比 计数 MSE 百分比 MAD 百分比 MAPE 百分比 MSE 百分比 MAD 百分比 MAPE 百分比 1.0 45 12.0662 4.4286 17.0993 11.7595 4.3601 16.9809 2.0 90 19.6105 7.9590 27.7611 19.0639 7.8242 28.0537 2.5 112 22.6611 9.5292 31.4313 22.0671 9.3775 31.8497 3.0 134 25.4267 11.0245 35.1014 24.7926 10.8576 35.4683 4.0 179 30.3473 13.8759 42.6086 29.7103 13.7003 42.7628 5.0 223 34.5866 16.4938 49.9489 33.9523 16.3116 49.8103 7.5 334 43.2672 22.4419 63.2850 43.0319 22.3750 63.0140 10.0 446 50.4797 27.8875 70.7239 50.3414 27.8406 70.3832 15.0 668 61.1200 37.1919 78.5216 61.0161 37.1327 78.1782 20.0 891 69.2319 45.3354 82.5577 69.0602 45.2227 82.2440