表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方,因此最极端的观测值通常对统计量的影响最大。如果 MSE 与其他两个度量的误差百分比之间的差异较大,则表明树对选择以最小平方误差或最小绝对偏差来分裂节点更为敏感。
使用验证方法时,Minitab 会为训练数据和检验数据单独计算统计量。您可以比较统计量,检查树在训练数据和新数据上的相对性能。检验统计量通常能够更好地衡量树对新数据的执行效果。
一种可能的模式是,一小部分残差涉及很大一部分的数据误差。例如,在下表中,数据集的总大小约为 4500。从 MSE 的角度来看,这表示 1% 的数据导致了约 12% 的误差。在这种情况下,导致树产生大部分误差的 45 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合,则树的整体性能会有相对较大的提高。
此条件还指示树中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例,因此其他案例的拟合相对而言更准确。
训练 | 测试 | ||||||
---|---|---|---|---|---|---|---|
最大残差百分比 | 计数 | MSE 百分比 | MAD 百分比 | MAPE 百分比 | MSE 百分比 | MAD 百分比 | MAPE 百分比 |
1.0 | 45 | 12.0662 | 4.4286 | 17.0993 | 11.7595 | 4.3601 | 16.9809 |
2.0 | 90 | 19.6105 | 7.9590 | 27.7611 | 19.0639 | 7.8242 | 28.0537 |
2.5 | 112 | 22.6611 | 9.5292 | 31.4313 | 22.0671 | 9.3775 | 31.8497 |
3.0 | 134 | 25.4267 | 11.0245 | 35.1014 | 24.7926 | 10.8576 | 35.4683 |
4.0 | 179 | 30.3473 | 13.8759 | 42.6086 | 29.7103 | 13.7003 | 42.7628 |
5.0 | 223 | 34.5866 | 16.4938 | 49.9489 | 33.9523 | 16.3116 | 49.8103 |
7.5 | 334 | 43.2672 | 22.4419 | 63.2850 | 43.0319 | 22.3750 | 63.0140 |
10.0 | 446 | 50.4797 | 27.8875 | 70.7239 | 50.3414 | 27.8406 | 70.3832 |
15.0 | 668 | 61.1200 | 37.1919 | 78.5216 | 61.0161 | 37.1327 | 78.1782 |
20.0 | 891 | 69.2319 | 45.3354 | 82.5577 | 69.0602 | 45.2227 | 82.2440 |