单击选择备择树可打开包含模型汇总统计量表的交互图。使用该图可调查性能相似的更小树。
通常,树的终端节点越少,越能清晰地显示每个预测变量如何影响响应值。较小的树也更易于识别一些目标组,以便进一步研究。如果较小树的预测准确度差异可以忽略不计,则可以使用较小的树来评估响应变量与预测变量之间的关系。
可用于分类树的预测变量总数。这是您指定的连续预测变量和分类预测变量的总和。
分类树中重要预测变量的数量。重要预测变量是指用作主分裂变量或代理分裂变量的变量。
可以使用“相对变量重要性”图来显示相对变量重要性的顺序。例如,假设 20 个预测变量中有 10 个在分类树中比较重要,则“相对变量重要性”图会按重要性顺序显示变量。
终端节点是无法进一步分裂的最终节点。
终端节点是使用分类树方法标识的最终更纯组。您可以使用终端节点信息进行预测。
最小终端节点大小是案例数最少的终端节点。
默认情况下,Minitab 将终端节点允许的最小案例数设置为 3 个案例;但是,树的最小终端节点大小可能大于 3。 You can also change this threshold value in the Options subdialog box.
当响应为二元响应时,Minitab 会计算负对数似然函数的平均值。
比较不同模型中检验的负对数似然平均值,以确定拟合最好的模型。负对数似然平均值越低,拟合效果越好。
ROC 曲线在 y 轴上绘制真阳率 (TPR),也称为功效。ROC 曲线在 x 轴上绘制假阳率 (FPR),也称为 1 类错误。ROC 曲线下面积指示分类树是否为很好的分类器。
对于分类树,ROC 曲线下面积的值范围是 0.5 到 1。当分类树可以完美地分隔类别时,曲线下面积为 1。当分类树不能比随机分配更好地分隔类别时,曲线下面积为 0.5。
当响应为二元响应时,Minitab 会显示提升。提升是 10% 数据的累积提升,具有最佳的正确分类机会。
提升表示目标响应除以平均响应的比率。当提升大于 1 时,数据段的响应大于预期响应。
误分类成本是相对误分类成本。该成本相对于预测每个案例最常见结果的树而言。相对成本涉及错误率和加权成本。
“检验”下的误分类成本表示当 Minitab 在结果中使用树而不是另一个树来预测新观测值的响应值时,所有水平上发生的误分类成本。值越小,结果中树的性能越好。如果值小于 1,则表示结果中的模型成本小于预测每个案例最常见结果的模型的成本。