CART® 分类选择分析选项

统计 > 预测分析  > CART® 分类 > 选项

选择分析选项。

节点分裂方法
选择用于生成决策树的分裂方式。可以对多种分裂方式的结果进行比较,以确定适合应用的最佳选择。
  • 基尼:基尼方法是默认方法。基尼方法适用于许多应用。基尼方法通常生成包含小节点的树,这些节点的受关注响应的浓度很高。
  • :熵方法与节点的特定似然函数的最大值成正比。
  • 二分:二分法仅适用于多项式响应。与基尼方法或熵方法相比,二分法通常生成更为平衡的分裂。对于二元响应,二分法与基尼方法相同。
  • 类别概率:概率树往往比基尼树更大。当您对一些顶级节点的性能感兴趣时,可使用概率方法。
选择最佳树的标准
在以下条件中进行选择,以在结果中选择树。可以比较不同树的结果,以确定适合应用的最佳选择。
  • 最小误分类成本:选择此选项可显示将误分类成本降至最低的树的结果。
  • 最小误分类成本的 K 个标准误内;K =:选择此选项可显示最小误分类成本在最小误分类成本 K 个标准误内的最小树的结果。默认情况下,K=1,因此结果代表的是误分类成本在误分类成本最低的树的 1 个标准误内的最小树。
具有缺失值的预测变量的代理数
输入在预测变量缺失值时 Minitab 搜索的代理数量。当许多预测变量具有类似的缺失值模式时,应增加代理的数量。
此数字表示 Minitab 搜索的最大代理数量;但是,实际上可能找不到该数量的代理。
默认值为 10。
用于拆分内部节点的最小案例数
输入节点可以拥有且仍可分裂为更多节点的最小案例数。默认值为 10。对于更大的样本,您可能需要增大此最小值。例如,如果内部节点具有 10 个或更多案例,Minitab 将尝试执行分裂。如果内部节点的案例数不超过 9 个,Minitab 则不尝试执行分裂。
内部节点限值必须至少是终端节点限值的两倍,但此倍比越大越好。如果内部节点限值至少是终端节点限值的 3 倍,则分裂变量的数量会更加合理。
终端节点允许的最小案例数
输入可在终端节点中发生的最小案例数。默认值为 3。对于更大的样本,您可能需要增大此最小值。例如,如果分裂将创建小于 3 个案例的节点,则 Minitab 不执行分裂。
最大树深度
输入一个值,以表示树的最大深度。根节点对应于深度 1。如果要确保获得最优树,则需考虑更深的树,即使这可能会减慢处理速度。
权重
输入包含案例权重的列。该列所具有的行数必须与响应列所具有的行数相同。值必须大于等于 0。Minitab 会在分析中忽略包含缺失值或零的行。