残差箱图 CART® 回归

使用残差的箱线图可评估树的整体准确度。当分析使用验证技术时,还可以比较树在训练数据上的准确性与在验证数据上的准确性。

箱线图显示实际值和拟合值之间的差异。距离最近的四分位数超过 1.5 倍四分位间距的点具有单值符号。

解释

理想情况下,残差全部接近于 0(相对于响应变量的尺度而言)。当你使用验证技术时,Minitab会为训练数据和验证结果分别创建图表。您可以比较这些图,检查树在训练数据和新数据上的相对性能。你还可以寻找不同的模式,以观察训练数据与验证结果之间的差异。

这些箱形图显示训练数据集和验证结果的相似结果。这种相似性表明树在新数据上的性能接近于树在训练数据上的性能。

两个数据集箱形图的四分位区间大约是 –2.6 到 2.6。50%的数据存在该范围内的残差。其余残差更大。由于四分位间距约为 5,因此超出近似范围 –10.5 至 10.5 的残差具有单值符号。最大残差在正、负方向上均接近 20。这些较大残差表示树与所有数据的拟合度不佳。