选择最佳基函数数 MARS® 回归

注意

此命令可用于预测分析模块单击此处了解更多关于如何激活模块的信息

分析将构建您指定的任意数量的基础函数,并根据每个函数中的信息对模型进行少量修改。如果分析包括验证方法,则分析将计算训练数据的模型选择标准值和每个基函数数的检验数据的值。测试数据中的最优值决定了最优模型中的函数数。

模型验证方法

当用于计算优化标准的数据与用于拟合模型的数据相同时,得到的优化标准(如最大 R2)往往倾向于乐观。模型验证方法将部分数据排除在模型拟合过程外,然后计算统计量以评估模型在忽略的数据上的性能。模型验证技术可以更好地估计模型在新数据上的效果如何。根据您为分析选择的损失函数,标准是最大 R2 或最小平均绝对偏差 (MAD)。Minitab 提供了两种验证方法:k 折叠交叉验证和使用单独的测试集进行验证。

具有 K 折交叉验证的最佳模型

当数据具有的案例少于或等于 2000 时,K 折叠交叉验证是 Minitab 中的默认方法。由于该过程会重复 K 次,因此交叉验证通常比使用检验数据进行验证要慢。

K 折叠交叉验证过程

要完成 K 折交叉验证,Minitab 统计软件使用以下步骤。
  1. 将数据分成多个大小尽可能相等的 K 随机子集。子集称为折叠。
  2. 对于折叠 kk = 1, ..., K,使用剩余的 K–1 折叠数据添加基函数。计算第 k 数据模型的模型选择准则值。
  3. 为所有 K 折叠重复步骤 2。
  4. 对每个函数数的 K 个折叠的模型选择标准值求平均值。具有最佳平均值的函数数量构成最佳模型。

具有单独测试集的最佳模型

在使用测试集验证时,将留出一部分数据进行验证。其余数据是训练集。首先,Minitab 在训练集中添加基函数。然后,Minitab 使用测试集计算每个函数数的模型选择标准值。具有最佳值的函数数构成最佳模型。

无需验证的最佳模型

没有任何验证时,Minitab 使用整个数据集来拟合模型。最终模型通常包含最多数量的基函数。