残差的箱线图 - CART® 回归

使用残差的箱线图可评估树的整体准确度。当分析使用验证方法时,还可以比较用于训练和检验数据的树的准确度。

箱线图显示实际值和拟合值之间的差异。距离最近的四分位数超过 1.5 倍四分位间距的点具有单值符号。

解释

理想情况下,残差全部接近于 0(相对于响应变量的尺度而言)。使用验证方法时,Minitab 会为训练和检验数据创建单独的图。您可以比较这些图,检查树在训练数据和新数据上的相对性能。也可以查找不同的模式,这些模式可能指示训练和检验数据之间可供调查的差异。

这些箱线图对训练和检验数据集显示的结果相似。这种相似性表明树在新数据上的性能接近于树在训练数据上的性能。

两个数据集的箱线图的四分位间距约为 –2.6 至 2.6。有 50% 的数据残差位于此范围内。其余残差更大。由于四分位间距约为 5,因此超出近似范围 –10.5 至 10.5 的残差具有单值符号。最大残差在正、负方向上均接近 20。这些较大残差表示树与所有数据的拟合度不佳。