对于使用 TreeNet® 回归拟合模型发现关键预测变量,归因于最大残差的误差百分比统计量

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

使用误差百分比统计量可检查模型中拟合与最差拟合的误差量。当分析使用验证方法时,还可以比较用于训练和检验数据的模型的统计量。

表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方,因此最极端的观测值通常对统计量的影响最大。如果 MSE 与其他两个度量的误差百分比之间的差异较大,则表明模型对选择以最小平方误差或最小绝对偏差来分裂节点更为敏感。

使用验证方法时,Minitab 会为训练数据和检验数据单独计算统计量。您可以比较这些统计量,检查模型在训练数据和新数据上的相对性能。检验统计量通常能够更好地衡量模型对新数据的执行效果。

一种可能的模式是,一小部分残差涉及很大一部分的数据误差。例如,在下表中,数据集的总大小约为 4400。从MSE的角度来看,这表明1%的数据约占误差的13%。在这种情况下,导致模型产生大部分误差的 31 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合,则模型的整体性能会有相对较大的提高。

此条件还指示模型中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例,因此其他案例的拟合相对而言更准确。

TreeNet® 回归: 贷款金额 vs 年收入, 收入比率, 前端比率, 后端比率, 借款人数量, 年龄, 共同借款人年龄, 普查区少数族裔百分比, ...

归因于最大残差的误差百分比统计量 训练 测试 最大残差百分比 计数 MSE 百分比 MAD 百分比 MAPE 百分比 计数 MSE 百分比 MAD 百分比 MAPE 百分比 1.0 31 13.2824 4.9997 8.0885 14 21.6989 6.9082 9.0517 2.0 62 21.3764 8.9374 12.9910 27 31.9396 11.6377 14.0987 2.5 77 24.7125 10.6967 14.9989 33 35.7935 13.6106 16.1761 3.0 93 27.9315 12.4817 17.0128 40 39.8022 15.7838 18.4925 4.0 123 33.2979 15.6372 20.4671 53 45.8259 19.4124 22.4744 5.0 154 38.1707 18.6937 23.7785 66 50.8291 22.7194 25.9526 7.5 231 47.9001 25.4954 31.0104 98 59.7000 29.6264 33.2548 10.0 307 55.3764 31.4216 37.0787 131 66.4339 35.7333 39.2610 15.0 461 66.7462 41.8167 47.2740 196 75.4853 45.6703 48.6658 20.0 614 74.8066 50.5429 55.5443 261 81.6292 53.8603 56.3489