最优树数选择标准

Minitab 使用最大对数似然(默认值)、ROC 曲线下最大面积或最小误分类率来选择最优树数。

模型验证

Minitab 使用交叉验证方法或使用单独的检验集来验证模型。使用交叉验证,您可以指定每个折叠的行,或允许随机选择。使用单独的检验集,您可以指定训练和检验集的行,或允许随机选择。

学习速率

学习速率越低,为模型中的每个新树赋予的权重就越低,有时为模型生成的树也越多。模型的学习速率越低,训练数据集的过度拟合几率就越低。

默认学习速率 = max[0.01, 0.1 * min(1.0, N/10000)。如果使用低学习速率,您可能需要增加模型中的最大树数,以使最优树数小于最大树数。

子样本选择方法

子样本选择方法显示分析功能用于构建每个树的数据所占的比例。如果担忧会发生过度拟合,请调整此参数。如果分析功能为二元响应变量中的每个类别指定一个单独的比例,则该方法会显示这两个类别的值。用来为每个响应水平指定比例的选项可确保当其中的一个响应值稀有时,树中包含的每个响应值的数量将为最少。

每个树的最大终端节点数或最大树深度

TreeNet® 分类 将许多小的 CART® 树组合到一个功能强大的模型中。您可以为这些较小的 CART® 树指定最大终端节点数或最大树深度。
每个树的最大终端节点数
默认的最大终端节点数为 6。尽管每个树的最大终端节点数越大,检测交互作用的能力越强,但是,值高于 12 可能会减慢分析速度,而不会对模型有太大好处。
最大树深度
默认的最大树深度为 4。如果初始拟合模型表现不好,请考虑使用更大的最大树深度(如 5 或 6),以查看增加最大树深度能否会改进模型。

最小终端节点大小

指示终端节点的最小案例数。例如,如果最小案例数为 3,拆分将创建案例数小于 3 的节点,则 Minitab 不执行拆分。

为节点拆分选择的预测变量数

该行指示节点拆分是考虑每个节点的每个预测变量,还是预测变量的随机子集。如果节点拆分使用随机子集,则该行指示要考虑的选定预测变量数。

如果最初使用所有的预测变量,请考虑是否使用后续模型中的预测变量子集来比较模型的性能。

缺失值惩罚

默认情况下,分析没有缺失值惩罚,并且不存在此行。“缺失值惩罚”按缺失值比率对预测变量执行惩罚。变量的惩罚值越高,越不可能成为节点拆分变量。

高阶属性惩罚

默认情况下,分析没有高阶属性惩罚,并且不存在此行。高阶属性惩罚会根据相对于每个节点的节点大小的类别水平数来对变量执行惩罚。因此,竞争变量的水平越多,越不可能成为节点拆分变量。

权重

指示用于分配响应权重的列。

已使用的行数

用来拟合和评估模型的分析中的响应观测值个数。

未使用的行数

缺少响应观测值的数量。这还包括权重列中的缺失值或零。