模型汇总表 - CART®分类

查找模型汇总表的定义和解释指南。
注意

Minitab 可显示训练和检验数据集的结果。检验结果指示模型是否可以充分预测新观测值的响应值,或是否可以正确汇总响应变量和预测变量之间的关系。训练结果通常比实际情况更理想,仅供参考。

单击 选择备择树 打开包含模型汇总统计量表的交互图。使用该图可调查性能相似的更小树。

通常,树的终端节点越少,越能清晰地显示每个预测变量如何影响响应值。较小的树也更易于识别一些目标组,以便进一步研究。如果较小树的预测准确度差异可以忽略不计,则可以使用较小的树来评估响应变量与预测变量之间的关系。

预测变量总数

可用于分类树的预测变量总数。这是您指定的连续预测变量和分类预测变量的总和。

重要预测变量

分类树中重要预测变量的数量。重要预测变量是指用作主分裂变量或代理分裂变量的变量。

解释

可以使用“相对变量重要性”图来显示相对变量重要性的顺序。例如,假设 20 个预测变量中有 10 个在分类树中比较重要,则“相对变量重要性”图会按重要性顺序显示变量。

终端节点数

终端节点是无法进一步分裂的最终节点。

解释

终端节点是使用分类树方法标识的最终更纯组。您可以使用终端节点信息进行预测。

最小终端节点大小

最小终端节点大小是案例数最少的终端节点。

解释

默认情况下,Minitab 将终端节点允许的最小案例数设置为 3 个案例;但是,树的最小终端节点大小可能大于 3。您也可以在 选项 子对话框中更改此阈值。

偏差 R 平方

偏差 R 2 表示由模型解释的响应的变异程度。R 2越高,模型与您数据的拟合性就越好。

解释

比较训练和检验偏差 R 2 值。R 2 值越高,表示拟合效果越好。

使用检验偏差 R 平方值可评估模型是否与您的数据拟合良好。也可以将检验偏差 R 平方值与逻辑回归中的偏差 R 平方值进行比较,以查看哪种方法为您提供的模型更好。
注意

训练数据集的偏差 R 平方通常反映比实际情况更乐观的模型拟合结果。Minitab 显示的训练结果仅供参考。

负对数似然平均值

当响应为二值响应时,Minitab 会计算负对数似然函数的平均值。

解释

比较不同模型中检验的负对数似然平均值,以确定拟合最好的模型。负对数似然平均值越低,拟合效果越好。

ROC 曲线下面积

ROC 曲线在 y 轴上绘制真阳率 (TPR),也称为功效。ROC 曲线在 x 轴上绘制假阳率 (FPR),也称为 1 类错误。ROC 曲线下面积指示分类树是否为很好的分类器。

解释

对于分类树,ROC 曲线下面积的值范围是 0.5 到 1。当分类树可以完美地分隔类别时,曲线下面积为 1。当分类树不能比随机分配更好地分隔类别时,曲线下面积为 0.5。

提升

当响应为二值响应时,Minitab 会显示提升。提升是 10% 数据的累积提升,具有最佳的正确分类机会。

解释

提升表示目标响应除以平均响应的比率。当提升大于 1 时,数据段的响应大于预期响应。

误分类成本

误分类成本是相对误分类成本。该成本相对于预测每个案例最常见结果的树而言。相对成本涉及错误率和加权成本。

解释

“检验”下的误分类成本表示当 Minitab 在结果中使用树而不是另一个树来预测新观测值的响应值时,所有水平上发生的误分类成本。值越小,结果中树的性能越好。如果值小于 1,则表示结果中的模型成本小于预测每个案例最常见结果的模型的成本。

使用此网站,即表示您同意对数据分析和个性化内容使用 Cookie。  请阅读我们的政策