表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方,因此最极端的观测值通常对统计量的影响最大。
如果您除了 OOB 验证,还选择使用测试集验证,则表格会同时显示 OOB 数据和测试集数据的结果。
一种可能的模式是,一小部分残差涉及很大一部分的数据误差。例如,在下表中,数据集的总大小约为 2930。从 MSE 的角度来看,这表示 1% 的数据导致了约 36% 的误差。在这种情况下,导致模型产生大部分误差的 30 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合,则模型的整体性能会有相对较大的提高。
此条件还指示模型中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例,因此其他案例的拟合相对而言更准确。