Random Forests® 回归中归因于最大残差的误差百分比统计量

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

使用误差百分比统计量可检查模型中拟合与最差拟合的误差量。

表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方,因此最极端的观测值通常对统计量的影响最大。

如果您除了 OOB 验证,还选择使用测试集验证,则表格会同时显示 OOB 数据和测试集数据的结果。

一种可能的模式是,一小部分残差涉及很大一部分的数据误差。例如,在下表中,数据集的总大小约为 2930。从 MSE 的角度来看,这表示 1% 的数据导致了约 36% 的误差。在这种情况下,导致模型产生大部分误差的 30 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合,则模型的整体性能会有相对较大的提高。

此条件还指示模型中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例,因此其他案例的拟合相对而言更准确。

Random Forests® 回归: 销售价格 vs 地段正面, 地段区域, 威尼斯地区, 地下室1区, 地下室2区, 地下室未完成区域, ...

归因于最大残差的误差百分比统计量 OOB 最大残差百分比 计数 MSE 百分比 MAD 百分比 MAPE 百分比 1.0 30 36.3855 9.5840 13.0409 2.0 59 46.9434 14.8347 18.0932 2.5 74 50.3622 16.9953 20.2317 3.0 88 53.1701 18.8880 22.0186 4.0 118 58.0879 22.5527 25.4151 5.0 147 62.0425 25.7845 28.3840 7.5 220 69.7824 32.9504 34.8161 10.0 293 75.0273 38.8507 40.2386 15.0 440 82.2816 48.6881 49.2733 20.0 586 86.9557 56.5610 56.7304