最佳和最差终端节点的拟合和误差统计量 - CART® 回归

使用拟合和误差统计量可描述因性能而受特殊关注的节点的特征。

解释

表的每一行都显示节点的拟合和误差统计量。最佳节点按误差从小到大的顺序排列。最差节点按误差从大到小的顺序排列。

使用检验数据集时,Minitab 会分别 为训练数据和检验数据单独计算统计量。您可以比较统计量,检查树在训练数据和新数据上的相对性能。检验统计量通常能够更好地衡量树对新数据的执行效果。

拟合
拟合是节点中案例的平均响应值。拟合是位于同一节点中的新数据的预测值。与其他终端节点中的拟合不同的终端节点可能需要特殊关注,因为这些终端节点中的案例的拟合值可能有所不同。
计数
计数是节点中的案例数。如果分析包含权重,则计数为加权计数。具有许多案例的终端节点可能需要特殊关注,因为这些节点通常表示更常见的案例。
标准差
标准差是节点中响应值的标准偏差。标准差较小的终端节点可能需要特殊关注,因为这些节点的预测比标准差较大的终端节点更精确。
MSE
均方误 (MSE) 衡量节点的准确度。异常值对 MSE 的影响大于对 MAD 和 MAPE 的影响。
MAD

平均绝对偏差 (MAD) 以与数据相同的单位表示准确度,这有助于使误差量概念化。异常值对 MAD 的影响小于对 MSE 的影响。

MAPE
平均绝对百分比误差 (MAPE) 以误差的百分比来表示准确度。由于 MAPE 为百分比,因此与其他准确度度量统计量相比,它更易于理解。例如,如果 MAPE 为 5,则拟合平均偏离 5%。异常值对 MAPE 的影响小于对 MSE 的影响。

但是,有时您可能会看到非常大的 MAPE 值,即使节点与数据的拟合情况良好也是如此。检查拟合与实际响应值图,查看是否有数据值接近 0。由于 MAPE 将绝对误差除以实际数据,因此接近 0 的值会显著加大 MAPE。