此命令适用于 预测分析模块。单击此处了解更多关于如何激活模块的信息。
Minitab 使用最大对数似然(默认值)、ROC 曲线下最大面积或最小误分类率来选择最优树数。
Minitab 使用交叉验证方法或使用单独的检验集来验证模型。使用交叉验证,您可以指定每个折叠的行,或允许随机选择。使用单独的检验集,您可以指定训练和检验集的行,或允许随机选择。
学习速率越低,为模型中的每个新树赋予的权重就越低,有时为模型生成的树也越多。模型的学习速率越低,训练数据集的过度拟合几率就越低。
默认学习速率 = max[0.01, 0.1 * min(1.0, N/10000)。如果使用低学习速率,您可能需要增加模型中的最大树数,以使最优树数小于最大树数。
子样本选择方法显示分析功能用于构建每个树的数据所占的比例。如果担忧会发生过度拟合,请调整此参数。如果分析功能为二元响应变量中的每个类别指定一个单独的比例,则该方法会显示这两个类别的值。用来为每个响应水平指定比例的选项可确保当其中的一个响应值稀有时,树中包含的每个响应值的数量将为最少。
指示终端节点的最小案例数。例如,如果最小案例数为 3,拆分将创建案例数小于 3 的节点,则 Minitab 不执行拆分。
该行指示节点拆分是考虑每个节点的每个预测变量,还是预测变量的随机子集。如果节点拆分使用随机子集,则该行指示要考虑的选定预测变量数。
如果最初使用所有的预测变量,请考虑是否使用后续模型中的预测变量子集来比较模型的性能。
默认情况下,分析没有缺失值惩罚,并且不存在此行。“缺失值惩罚”按缺失值比率对预测变量执行惩罚。变量的惩罚值越高,越不可能成为节点拆分变量。
默认情况下,分析没有高阶属性惩罚,并且不存在此行。高阶属性惩罚会根据相对于每个节点的节点大小的类别水平数来对变量执行惩罚。因此,竞争变量的水平越多,越不可能成为节点拆分变量。
指示用于分配响应权重的列。
用来拟合和评估模型的分析中的响应观测值个数。
缺少响应观测值的数量。这还包括权重列中的缺失值或零。