此命令适用于 预测分析模块。单击此处了解更多关于如何激活模块的信息。
表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方,因此最极端的观测值通常对统计量的影响最大。MSE 的误差百分比与其他两个度量之间的较大差异可能表明模型对使用 R 平方准则或平均绝对偏差准则选择基函数更敏感。
使用验证技术时,结果包括训练数据和测试数据的单独统计信息。您可以比较这些统计量,检查模型在训练数据和新数据上的相对性能。检验统计量通常能够更好地衡量模型对新数据的执行效果。
一种可能的模式是,一小部分残差涉及很大一部分的数据误差。例如,在下表中,数据集的总大小约为 4400。从MSE的角度来看,这表明1%的数据约占误差的13%。在这种情况下,导致模型产生大部分误差的 31 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合,则模型的整体性能会有相对较大的提高。
此条件还指示模型中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例,因此其他案例的拟合相对而言更准确。
训练 | 测试 | |||||||
---|---|---|---|---|---|---|---|---|
最大残差百分比 | 计数 | MSE 百分比 | MAD 百分比 | MAPE 百分比 | 计数 | MSE 百分比 | MAD 百分比 | MAPE 百分比 |
1.0 | 31 | 13.2824 | 4.9997 | 8.0885 | 14 | 21.6989 | 6.9082 | 9.0517 |
2.0 | 62 | 21.3764 | 8.9374 | 12.9910 | 27 | 31.9396 | 11.6377 | 14.0987 |
2.5 | 77 | 24.7125 | 10.6967 | 14.9989 | 33 | 35.7935 | 13.6106 | 16.1761 |
3.0 | 93 | 27.9315 | 12.4817 | 17.0128 | 40 | 39.8022 | 15.7838 | 18.4925 |
4.0 | 123 | 33.2979 | 15.6372 | 20.4671 | 53 | 45.8259 | 19.4124 | 22.4744 |
5.0 | 154 | 38.1707 | 18.6937 | 23.7785 | 66 | 50.8291 | 22.7194 | 25.9526 |
7.5 | 231 | 47.9001 | 25.4954 | 31.0104 | 98 | 59.7000 | 29.6264 | 33.2548 |
10.0 | 307 | 55.3764 | 31.4216 | 37.0787 | 131 | 66.4339 | 35.7333 | 39.2610 |
15.0 | 461 | 66.7462 | 41.8167 | 47.2740 | 196 | 75.4853 | 45.6703 | 48.6658 |
20.0 | 614 | 74.8066 | 50.5429 | 55.5443 | 261 | 81.6292 | 53.8603 | 56.3489 |