指定CART® 分类的默认设置

文件 > 选项 > 预测分析 > CART® 分类

指定分类树的默认方法。对默认设置所做的更改将保留到您再次更改它们,即使退出 Minitab 也是如此。

节点分裂方法
选择拆分方法生成决策树。您可以比较多个拆分方法的结果,以确定应用程序的最佳选择。
  • :基尼方法是默认方法。基尼方法在许多应用中都很有效。基尼方法通常生成包含具有高浓度响应兴趣的小节点的树。
  • :熵方法与节点的某些可能性函数的最大比例。
  • :二ing方法仅提供多元响应。二元法通常生成比基尼或熵方法更平衡的拆分。对于二进制响应,二元方法与基尼方法相同。
  • :概率树往往大于基尼树。当您对几个顶级节点的性能感兴趣时,请使用概率方法。
选择最佳树的标准
在以下条件之间进行选择,以在结果中选择树。您可以比较不同树的结果,以确定应用程序的最佳选择。
  • :选择此选项可显示树的结果,从而最小化错误分类成本。
  • :选择此选项可显示最小树的结果,该树的分类成本在 K 标准误差中为最小错误,最小错误分类成本。默认情况下,K=1,因此结果适用于树的 1 个标准误差范围内具有错误分类成本的最小树,并且具有最小的错误分类成本, 并且具有最小的错误分类成本。
用于拆分内部节点的最小案例数
输入一个值来表示要拆分的内部节点的最小案例数。默认值是 10。如果样本大小较大,您可能需要增加此最小值。例如,如果内部节点具有 10 个或更多情况,Minitab 将尝试执行拆分。如果内部节点有 9 个或更少的情况,Minitab 将不会尝试执行拆分。
内部节点限制必须至少是终端节点限制的两倍,但较大的比率更好。终端节点限制的内部节点限制至少为 3 倍,允许合理数量的拆分器。
默认值是 .10。
终端节点允许的最小案例数
输入一个值以表示可分隔到终端节点的最小案例数。默认值为 3。如果样本大小较大,您可能需要增加此最小值。例如,如果拆分将创建少于 3 个案例的节点,Minitab 将不会执行拆分。
默认值是 .3。
缺少值值
输入缺少值的预测变量的罚值。由于成为数据较少的好拆分器更容易,因此缺少数据的预测变量比预测变量具有优势,而不会丢失数据。使用此选项可惩罚缺少数据的预测变量。
.0 = K = 2.0,例如:
  • K = 0:不指定任何惩罚。
  • K = 2:指定最高惩罚。
高级别类别处罚
为具有许多值的分类预测变量输入惩罚值。由于具有多个级别的分类预测变量会由于拆分能力的增加而扭曲树,因此它们比水平较低的预测变量具有优势。使用此选项可惩罚具有多个级别的预测变量。
.0 = K = 5.0,例如:
  • K = 0:不指定任何惩罚。
  • K = 5:指定最高惩罚。
显示图形和表格
混淆矩阵的费率
选择要在混淆矩阵中显示的速率。
  • 正数:正率 (TPR) - 事件案例正确预测的概率。
  • 误报:误报率 (FPR) - 预测错误非事件案例的概率。
  • 假负数:假负数 (FNR) - 事件案例预测错误的概率。
  • 真负:真实负数 (TNR) - 正确预测非事件情况的概率。
接受者操作特性 (ROC) 曲线
接收器操作特性 (ROC) 曲线显示了树区分类的能力。ROC 曲线绘制真实正率 (TPR) 与误报率 (FPR) 的比法。
收益图
累积增益图说明了模型在部分总体中的有效性。增益图表绘制 % 类与百分比填充。
提升图
提升图说明了预测模型的有效性。提升图绘制累积提升与百分比总体,并显示在预测模型和没有预测模型的情况下获得的结果之间的差异。您可以指定或为此图表指定。
终端节点类型
选择是显示最佳节点、最差节点还是"分类表的有效性"和"分类主题表的标准"。
  • :默认情况下,Minitab 显示最佳的终端节点。最佳节点具有最高的事件概率(二进制)或最高类概率(多节点)值。对于二进制响应,最佳节点的事件概率接近 1 或 0 的两个结束情况。
  • :选择以显示最差的终端节点。最差节点具有最低事件概率(二进制)或最低类概率(多节点)值。对于二进制响应,最差节点的事件概率接近中间值 .5。
  • :选择以显示最佳和最差终端节点。