CART^® 回归中归因于最大残差的误差百分比统计量

使用误差百分比统计量可检查树中拟合与最差拟合的误差量。当分析使用验证方法时，还可以比较用于训练和检验数据的树的统计量。

表的每一行都显示给定残差百分比的误差统计量。来自最大残差的均方误 (MSE) 的百分比通常高于其他两个统计量的百分比。MSE 在计算中使用误差的平方，因此最极端的观测值通常对统计量的影响最大。如果 MSE 与其他两个度量的误差百分比之间的差异较大，则表明树对选择以最小平方误差或最小绝对偏差来分裂节点更为敏感。

使用验证方法时，Minitab 会为训练数据和检验数据单独计算统计量。您可以比较统计量，检查树在训练数据和新数据上的相对性能。检验统计量通常能够更好地衡量树对新数据的执行效果。

一种可能的模式是，一小部分残差涉及很大一部分的数据误差。例如，在下表中，数据集的总大小约为 4500。从 MSE 的角度来看，这表示 1% 的数据导致了约 12% 的误差。在这种情况下，导致树产生大部分误差的 45 个案例自然最能改进树。如果能找到一种方法来改善这些案例的拟合，则树的整体性能会有相对较大的提高。

此条件还指示树中案例误差不是最大的节点的置信度更高。由于大多数误差来自于少数案例，因此其他案例的拟合相对而言更准确。

归因于最大残差的误差百分比统计量

		训练			测试
最大残差百分比	计数	MSE 百分比	MAD 百分比	MAPE 百分比	MSE 百分比	MAD 百分比	MAPE 百分比
1.0	45	12.0662	4.4286	17.0993	11.7595	4.3601	16.9809
2.0	90	19.6105	7.9590	27.7611	19.0639	7.8242	28.0537
2.5	112	22.6611	9.5292	31.4313	22.0671	9.3775	31.8497
3.0	134	25.4267	11.0245	35.1014	24.7926	10.8576	35.4683
4.0	179	30.3473	13.8759	42.6086	29.7103	13.7003	42.7628
5.0	223	34.5866	16.4938	49.9489	33.9523	16.3116	49.8103
7.5	334	43.2672	22.4419	63.2850	43.0319	22.3750	63.0140
10.0	446	50.4797	27.8875	70.7239	50.3414	27.8406	70.3832
15.0	668	61.1200	37.1919	78.5216	61.0161	37.1327	78.1782
20.0	891	69.2319	45.3354	82.5577	69.0602	45.2227	82.2440

CART® 回归中归因于最大残差的误差百分比统计量

归因于最大残差的误差百分比统计量

CART^® 回归中归因于最大残差的误差百分比统计量