Random Forests^® 回归中归因于最大残差的误差百分比统计量

注意

使用误差百分比统计量可检查模型中拟合与最差拟合的误差量。

表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方，因此最极端的观测值通常对统计量的影响最大。

如果您除了 OOB 验证，还选择使用测试集验证，则表格会同时显示 OOB 数据和测试集数据的结果。

一种可能的模式是，一小部分残差涉及很大一部分的数据误差。例如，在下表中，数据集的总大小约为 2930。从 MSE 的角度来看，这表示 1% 的数据导致了约 36% 的误差。在这种情况下，导致模型产生大部分误差的 30 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合，则模型的整体性能会有相对较大的提高。

此条件还指示模型中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例，因此其他案例的拟合相对而言更准确。

归因于最大残差的误差百分比统计量

	OOB
最大残差百分比	计数	MSE 百分比	MAD 百分比	MAPE 百分比
1.0	30	36.3855	9.5840	13.0409
2.0	59	46.9434	14.8347	18.0932
2.5	74	50.3622	16.9953	20.2317
3.0	88	53.1701	18.8880	22.0186
4.0	118	58.0879	22.5527	25.4151
5.0	147	62.0425	25.7845	28.3840
7.5	220	69.7824	32.9504	34.8161
10.0	293	75.0273	38.8507	40.2386
15.0	440	82.2816	48.6881	49.2733
20.0	586	86.9557	56.5610	56.7304

Random Forests® 回归中归因于最大残差的误差百分比统计量

注意

归因于最大残差的误差百分比统计量

Random Forests^® 回归中归因于最大残差的误差百分比统计量