使用 TreeNet® 分类拟合模型发现关键预测变量 的模型汇总表

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

查找模型汇总表的定义和解释指南。
注意

Minitab 可显示训练和检验数据集的结果。检验结果指示模型是否可以充分预测新观测值的响应值,或是否可以正确汇总响应变量和预测变量之间的关系。使用训练结果可评估模型是否过度拟合。

预测变量总数

可用于 TreeNet® 模型的预测变量总数。总数是您指定的连续预测变量数和类别预测变量数之和。

重要预测变量

TreeNet® 模型中重要预测变量的数量。重要预测变量的重要性分数大于 0。可以使用相对变量重要性图来显示相对变量重要性的顺序。例如,假设模型中的 20 个预测变量中有 10 个比较重要,则相对变量重要性图会按重要性顺序显示变量。

生成的树数

默认情况下,Minitab 会生成 300 个小 CART® 树来生成 TreeNet® 模型。尽管此值非常适合用于探索数据,但请考虑是否要生成更多的树来生成最终模型。要更改生成的树数,请转到选项子对话框。

最优树数

最优树数对应于负对数似然或误分类率的最低平均值,或 ROC 曲线下面积的最大值。

当最优树数接近模型生成的最大树数时,请考虑使用更多树进行分析。因此,如果生成 300 个树而最优数量返回为 298,则使用更多树重新构建模型。如果最优数量继续接近最大数量,则继续增加树数。

负对数似然平均值

当响应为二元响应时,Minitab 会计算负对数似然函数的平均值。比较不同模型中检验的负对数似然平均值,以确定拟合最好的模型。负对数似然平均值越低,拟合效果越好。

ROC 曲线下面积

ROC 曲线在 y 轴上绘制真阳率 (TPR),也称为功效。ROC 曲线在 x 轴上绘制假阳率 (FPR),也称为 1 类错误。ROC 曲线下面积指示模型是否为良好的分类器。

对于分类树,ROC 曲线下面积的值通常介于 0.5 到 1 之间。值越大表明分类模型越好。当模型可以完美地分隔类别时,曲线下面积为 1。当模型对类别的分隔程度不如随机分配时,曲线下面积为 0.5。

提升

当响应为二元响应时,Minitab 会显示提升。提升是 10% 数据的累积提升,具有最佳的正确分类机会。

提升表示目标响应除以平均响应的比率。当提升大于 1 时,数据段的响应大于预期响应。

误分类率

最优误分类率发生在具有最优 ROC 曲线下面积的树中。误分类率指示模型对事件和非事件进行准确分类的频率。

值越小表明模型性能越好。