通过排除使用 TreeNet® 分类发现关键预测变量 的不重要或重要预测变量来评估模型

查找模型评估表格的定义和解释指南。
注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

注意

当您指定 发现关键预测变量 的选项时,您可以为训练和检验数据选择模型选择结果。检验结果指示模型是否可以充分预测新观测值的响应值,或是否可以正确汇总响应变量和预测变量之间的关系。训练结果一般只供参考。

使用结果来比较不同步骤的模型。要进一步探索表格中的备择模型,请单击 选择备择模型。Minitab 为备择模型生成一整套结果。您可以调整超参数并做出相应的预测。

最优树数

每一步的最优树数通常不同。如果最优数量接近于用于分析的总树数,则模型更有可能改进。您可以考虑是否进一步探索一种似乎有可能改进的备择模型。

负对数似然平均值

负对数似然平均值是对模型准确度的一种度量。值越小,拟合越好。

当响应为二值响应时,您可以使用最大对数似然作为选择最佳模型的标准。表格后面的完整结果适用于具有最小负对数似然平均值的模型。如果具有较少项的模型有接近最优值的负对数似然平均值,则考虑是否进一步探索备择模型。预测变量较少的模型更容易解释,并且允许您处理较少数量的预测变量。

ROC 曲线下面积

ROC 曲线在 y 轴上绘制真阳率 (TPR),也称为功效。ROC 曲线在 x 轴上绘制假阳率 (FPR),也称为 1 类错误。ROC 曲线下面积指示模型是否为良好的分类器。

对于分类树,ROC 曲线下面积的值通常介于 0.5 到 1 之间。值越大表明分类模型越好。当模型可以完美地分隔类别时,曲线下面积为 1。当模型对类别的分隔程度不如随机分配时,曲线下面积为 0.5。

当您使用 ROC 曲线下的最大面积作为最佳模型选择的标准时,该表格包括每个模型的 ROC 曲线下的面积。表格后面的完整结果适用于具有 ROC 曲线下最大面积的模型。如果具有较少项的模型具有接近最优值的值,则考虑是否进一步探索备择模型。预测变量较少的模型更容易解释,并且允许您处理较少数量的预测变量。

误分类率

误分类率指示模型对响应值进行准确分类的频率。值越小表明模型性能越好。

当您使用最小误分类率作为最佳模型选择的标准时,该表格包括每个模型的误分类率。表格后面的完整结果适用于误分类率最低的模型。如果具有较少项的模型具有接近最优值的值,则考虑是否进一步探索备择模型。预测变量较少的模型更容易解释,并且允许您处理较少数量的预测变量。

预测变量计数

预测变量计数是模型中的预测变量数。表格第一行中的预测变量数始终是分析中考虑的所有预测变量。第一行之后,预测变量数取决于分析是否排除了不重要的预测变量或重要预测变量。

当分析删除最不重要的预测变量后,则在每个步骤中,预测变量数会减少指定数量,并减少任何具有 0 重要度分值的预测变量。例如,如果分析在每一步排除 10 个预测变量,在初始模型中有 900 个预测变量和 450 个具有 0 重要度分值的预测变量,那么表格的第一行就有 900 个预测变量。第二行有 440 个预测变量,因为分析删除了重要度分值为 0 的 450 个预测变量和 10 个最不重要的预测变量。

当分析删除最重要的预测变量时,每个步骤的预测变量数会减少指定数量。具有 0 重要度的预测变量仍保留在模型中。

已排除的预测变量

该列显示每步中已排除的预测变量。该列表在一个步骤中最多显示 25 个预测变量标题。第一行始终显示“无”,因为模型具有所有预测变量。第一行之后,预测变量数取决于分析是否排除了不重要的预测变量或重要预测变量。

当分析删除最不重要的预测变量时,则在每个步骤中,预测变量数会减少指定数量,并减少任何具有 0 重要度分值的预测变量。如果分析排除了具有 0 重要度分值的预测变量,则这些预测变量就会在列表中排在第一。当分析排除了任一类别中的多个预测变量时,名称的顺序是工作表中预测变量的顺序。

当分析删除最重要的预测变量时,该列表显示每个步骤中已排除的预测变量。当分析在一个步骤中排除多个重要预测变量时,列表中名称的顺序是工作表中预测变量的顺序。