来自预测分析的模型为各种应用提供见解,包括制造质量控制、药物发现、欺诈检测、信用评分和流失预测。使用获得的结果确定重要变量,从而识别数据中具有所需特征的组,并预测新观测值的响应值。例如,市场研究人员可以使用预测分析模型来识别对特定计划具有较高响应率的客户,并预测这些响应率。
在许多应用中,模型构建的一个重要步骤是考虑各种类型的模型。分析师在特定时间找到应用程序的最佳类型,找到该模型的最佳版本,并使用该模型生成最准确的预测。为了帮助考虑各种模型,如果您有连续响应变量或二元响应变量,Minitab 统计软件提供了在单个分析中比较不同模型类型的功能。
如果类别响应变量超过 2 个,请逐个创建模型。
多元回归模型
多元回归模型假定平均响应是预测变量的参数函数。该模型使用最小二乘准则来估计数据集的参数。如果参数回归模型拟合响应与其预测变量之间的关系,则模型将使用新观测值准确预测响应值。例如,物理学中的胡克定律说,伸展弹簧的力与伸展的距离呈线性关系,因此回归模型很好地拟合了这种关系。
多元回归模型简化了预测变量最佳设置的识别。有效拟合还意味着拟合参数和标准误差对于统计推断很有用,例如估计预测响应值的置信区间。
多元回归模型非常灵活,通常适合数据中关系的真实形式。即便如此,有时多元回归模型不能很好地拟合数据集,或者数据的特征阻止了多元回归模型的构建。以下示例是多元回归模型拟合不佳的常见情况:
- 响应变量和预测变量之间的关系不遵循多元回归模型可以拟合的模型。
- 数据没有足够的观测值来估计足够的参数来查找拟合良好的多元回归模型。
- 预测变量是随机变量。
- 预测变量包含许多缺失值。
在这种情况下,基于树的模型是值得考虑的良好替代模型。
在预测分析模块中,Minitab 统计软件使用发现最佳模型命令将多元回归模型拟合到连续和二元响应变量。有关 Minitab 统计软件中其他多元回归模型的列表,请 Minitab 中包括哪些回归和相关性分析?转到。
基于树的模型
CART®,TreeNet®和Random Forests® 是3种基于树的方法。在基于树的模型中,CART® 最容易理解,因为 CART® 使用单个决策树。单个决策树从整个数据集开始,作为第一个父节点。然后,树使用节点拆分标准将数据拆分为 2 个更同构的子节点。此步骤将迭代重复,直到所有未拆分节点都满足成为终端节点的条件。之后,使用交叉验证或使用单独的测试集进行验证来修剪树以获得最佳树,即 CART® 模型。单个决策树易于理解,并且可以拟合具有各种特征的数据集。
与其他 2 种基于树的方法相比,单决策树可能更不健壮且功能更弱。例如,数据集中预测变量值的微小变化可能会导致非常不同的 CART® 模型。TreeNet® 和Random Forests® 方法使用单个树集来创建比单个决策树中的模型更健壮、更准确的模型。
Minitab 统计软件将基于树的模型拟合为连续响应变量、二元响应变量和名义响应变量。要在 Minitab 统计软件中查看每个模型的示例,请选择模型类型:
MARS® 回归 模型
MARS® 回归 首先构造一组尽可能拟合数据的扩展基函数。形成广泛模型后,分析通过搜索基函数的最佳子集来降低过度拟合的风险。简化的模型仍然适用于数据中的各种非线性依赖关系。生成的模型是这些基函数空间中的多元线性回归模型。以逐步方式为数据的不同区域搜索不同拟合的特征连接到
MARS® 回归 基于树的模型。由于基于树的特性,
MARS® 回归 提供了一些相同的优点:
- 自动检测模型形式
- 自动处理缺失值
- 自动选择最相关的预测变量
方程的使用连接到
MARS® 回归 多元回归模型。由于多元回归特性,
MARS® 回归 还提供了这种模型类型的一些优点:
- 回归方程使变量的影响易于理解。
- 连续函数意味着预测变量的微小变化会导致预测变量的微小变化。
- 即使对于小型模型,预测变量的不同值也会产生不同的预测。
来自的
MARS® 回归 灵活模型提供准确的预测,并可以提供对模型形式的见解,从而提高其他类型模型的拟合度。Minitab 统计软件将 MARS
® 回归模型拟合到连续响应变量。要查看 Minitab 统计软件中的示例
MARS® 回归 ,请转至
MARS® 回归示例。