Minitab 可以使用最小平方误差或最小绝对偏差作为节点分裂标准。最小平方误差方法将平方误差之和降至最低。最小绝对偏差方法将误差的绝对值之和降至最低。
Minitab 最初提供的结果代表最优树,或所具有的标准值在最优树标准值的多个标准误内的最小树。默认情况下,结果代表的是 R2 值在最大 R2 值 1 个标准误内的最小树,或者绝对偏差值在最小值 1 个标准误内的最小树,具体视选择的节点分裂方法而定。
对于许多数据集,该标准最初会随着终端节点数的增加而改进。然后,标准达到最优值,之后恶化。如果最优值代表添加节点对标准值影响不大的树,则可以考虑是否使用性能几乎与最优树一样但更小的树。树越小,越易于解释。
Minitab 可以使用检验数据集或 k 折叠交叉验证来验证树的性能。也可以选择不验证树的性能。当分析使用检验数据集时,此项显示训练和检验数据集的目标比率。
默认情况下,对于案例数不超过 5,000 的数据集,Minitab 使用 k 折叠交叉验证来验证树的性能。对于案例数超过 5000 的数据集,Minitab 使用检验数据集。当分析使用验证方法时,选择最优树的标准基于验证方法。使用验证方法选择最优树可防止树与可用数据过度拟合,并能更真实地展示树在新数据上的性能。
默认情况下,分析没有缺失值惩罚,并且不存在此行。缺失值惩罚根据每个节点的缺失值比例来惩罚竞争变量。因此,节点中缺少许多值的竞争变量不太可能充当主分裂变量。
默认情况下,分析没有高阶属性惩罚,并且不存在此行。高阶属性惩罚会根据相对于每个节点的节点大小的类别水平数来惩罚竞争变量。因此,节点中具有多个水平的竞争变量不太可能充当主分裂变量。
指示用于分配响应权重的列。
鉴于预测分析的分析过程处理预测变量缺失数据的方式,已使用的行数通常与完整数据集的大小相同。某些数据可能无效,并不纳入分析范围。例如,分析会排除缺少响应值、缺少权重、权重为 0 或负数的行。
缺少响应观测值的数量。这还包括权重列中的缺失值或零。