CART^® 回归的模型汇总

查找模型汇总表中每个统计量的定义和解释。

关于本主题

预测变量总数
重要预测变量
终端节点数
最小终端节点大小
R 平方

均方根误差 (RMSE)
均方误 (MSE)
平均绝对偏差 (MAD)
平均绝对百分比误差 (MAPE)

预测变量总数

可用于树的预测变量总数。该值为您指定的连续预测变量和类别预测变量的总和。

重要预测变量

树中重要预测变量的数量。重要预测变量是指用作主分裂变量或代理分裂变量的变量。

解释

可以使用“相对变量重要性”图来显示相对变量重要性的顺序。例如，假设树中的 20 个预测变量中有 10 个比较重要，则“相对变量重要性”图会按重要性顺序显示变量。

终端节点数

终端节点是无法进一步分裂的最终节点。

解释

您可以使用终端节点信息进行预测。

最小终端节点大小

最小终端节点大小是案例数最少的终端节点。

解释

默认情况下，Minitab 将终端节点允许的最小案例数设置为 3 个案例；但是，树的最小终端节点大小可以大于分析所允许的最小数量。您可以在选项子对话框中更改此阈值。

R 平方

R² 是由模型解释的响应的变异百分比。异常值对 R² 的影响大于对 MAD 和 MAPE 的影响。

使用验证方法时，该表包括训练数据集的 R² 统计量和检验数据集的 R² 统计量。如果验证方法为 k 折叠交叉验证，则在树构建排除每个折叠时，检验数据集即为该折叠。检验 R² 统计量通常能够更好地衡量模型对新数据的作用效果。

解释

使用 R² 可确定模型与数据的拟合程度。R² 值越高，模型与数据的拟合度越好。R² 始终介于 0% 和 100% 之间。

您可以图形方式说明不同 R² 值的含义。第一个图所示为简单回归模型，该模型可解释响应中 85.5% 的变异。第二个图所示的模型可解释响应中 22.6% 的变异。模型解释的变异越多，数据点越接近拟合值。从理论上讲，如果模型可以解释 100% 的变异，则拟合值始终等于观测值，所有数据点都将落在 y = x 线上。

显著小于训练 R² 的检验 R² 表示：树可能无法预测新案例的响应值以及树与当前数据集拟合。

均方根误差 (RMSE)

均方根误差 (RMSE) 衡量树的准确度。异常值对 RMSE 的影响大于对 MAD 和 MAPE 的影响。

使用验证方法时，该表包括训练数据集的 RMSE 统计量和检验数据集的 RMSE 统计量。如果验证方法为 k 折叠交叉验证，则在树构建排除每个折叠时，检验数据集即为该折叠。检验 RMSE 统计量通常能够更好地衡量模型对新数据的作用效果。

解释

用于比较不同树的拟合。值越小，拟合越好。检验 RMSE 大大大于训练 RMSE 表明树可能无法预测新病例的响应值，并且树拟合当前数据集。

均方误 (MSE)

均方误 (MSE) 衡量树的准确度。异常值对 MSE 的影响大于对 MAD 和 MAPE 的影响。

使用验证方法时，该表包括训练数据集的 MSE 统计量和检验数据集的 MSE 统计量。如果验证方法为 k 折叠交叉验证，则在树构建排除每个折叠时，检验数据集即为该折叠。检验 MSE 统计量通常能够更好地衡量模型对新数据的作用效果。

解释

用于比较不同树的拟合。值越小，拟合越好。测试MSE大大超过训练MSE表明树可能无法预测新病例的响应值，并且树拟合当前数据集。

平均绝对偏差 (MAD)

平均绝对偏差 (MAD) 以与数据相同的单位表示准确度，这有助于使误差量概念化。异常值对 MAD 的影响小于对 R²、RMSE 和 MSE 的影响。

使用验证方法时，该表包括训练数据集的 MAD 统计量和检验数据集的 MAD 统计量。如果验证方法为 k 折叠交叉验证，则在树构建排除每个折叠时，检验数据集即为该折叠。检验 MAD 统计量通常能够更好地衡量模型对新数据的作用效果。

解释

用于比较不同树的拟合。值越小，拟合越好。大大大于训练 MAD 的测试 MAD 表明树可能无法预测新病例的响应值，并且树拟合当前数据集。

平均绝对百分比误差 (MAPE)

平均绝对百分比误差 (MAPE) 以误差的百分比来表示准确度。由于 MAPE 为百分比，因此与其他准确度度量统计量相比，它更易于理解。例如，如果 MAPE 平均为 0.05，则所有案例的拟合误差与实际值之间的平均比值为 5%。异常值对 MAPE 的影响小于对 R²、RMSE 和 MSE 的影响。

但是，有时您可能会看到非常大的 MAPE 值，即使树与数据的拟合情况良好也是如此。检查拟合与实际响应值图，查看是否有数据值接近 0。由于 MAPE 将绝对误差除以实际数据，因此接近 0 的值会显著加大 MAPE。

使用验证方法时，该表包括训练数据集的 MAPE 统计量和检验数据集的 MAPE 统计量。如果验证方法为 k 折叠交叉验证，则在树构建排除每个折叠时，检验数据集即为该折叠。检验 MAPE 统计量通常能够更好地衡量模型对新数据的作用效果。

解释

用于比较不同树的拟合。值越小，拟合越好。远大于训练 MAPE 的测试 MAPE 表明树可能无法预测新病例的响应值，并且树拟合当前数据集。

CART® 回归的模型汇总