Random Forests® 回归中归因于最大残差的误差百分比统计量

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

使用误差百分比统计量可检查模型中拟合与最差拟合的误差量。

表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方,因此最极端的观测值通常对统计量的影响最大。

如果您除了 OOB 验证,还选择使用测试集验证,则表格会同时显示 OOB 数据和测试集数据的结果。

一种可能的模式是,一小部分残差涉及很大一部分的数据误差。例如,在下表中,数据集的总大小约为 2930。从 MSE 的角度来看,这表示 1% 的数据导致了约 36% 的误差。在这种情况下,导致模型产生大部分误差的 30 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合,则模型的整体性能会有相对较大的提高。

此条件还指示模型中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例,因此其他案例的拟合相对而言更准确。

归因于最大残差的误差百分比统计量


OOB
最大残差百分比计数MSE 百分比MAD 百分比MAPE 百分比
1.03036.38559.584013.0409
2.05946.943414.834718.0932
2.57450.362216.995320.2317
3.08853.170118.888022.0186
4.011858.087922.552725.4151
5.014762.042525.784528.3840
7.522069.782432.950434.8161
10.029375.027338.850740.2386
15.044082.281648.688149.2733
20.058686.955756.561056.7304