发现最佳模型 (二值响应) 概述

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

通常,确定哪种类型的模型对特定数据集做出最佳预测的最简单方法是构建所有模型并比较性能。 发现最佳模型 (二值响应) 用于比较 4 种常见型号的性能:拟合二元 Logistic 模型拟合模型TreeNet® 分类Random Forests® 分类CART® 分类.所有 4 项分析都使用许多绝对和连续的预测变量对二进制响应进行建模。例如,市场研究人员可以使用来识别对特定计划具有更高响应率的客户,并预测这些响应率。研究人员比较了不同类型的模型的性能,以决定如何获得最准确的预测。

在4种模型类型中,有2种更通用的模型类型:二元物流回归和基于树的模型。拟合二元 Logistic 模型 制作二元逻辑回归模型。其他 3 个命令以树为基模型。这两种一般类型的模型拟合方法非常不同,但它们是相辅相成的。二元物流回归模型假定二元响应的事件概率是预测器的参数函数。该模型使用最大可能性标准来估计数据集的参数。如果参数函数充分表示响应事件概率与其预测器之间的关系,则模型可以很好地估计事件概率。然后,该表达器很有可能正确预测新观测的反应水平。二元物流回归模型简化了预测器最佳设置的识别。有效的拟合还意味着拟合的参数和标准错误可用于统计推理,例如预测事件概率的置信间隔估计。

有时,二元物流回归模型不适合数据集,或者数据的特性妨碍了二元物流回归模型的构建。当二元物流回归模型不适合时,常见情况如下:
  1. 二元响应的事件概率与预测器之间的关系不遵循参数函数。
  2. 对于某些数据集,最大可能性估计算法无法收敛到唯一参数估计值。
  3. 当预测器数量大时,数据没有足够的观测来估计事件概率表达中的参数。
  4. 预测器是随机变量。
  5. 预测器包含许多缺失值。

在这种情况下,基于树的模型是需要考虑的好替代模型。

在基于树的模型中,CART 使用单个决策树。单个决策树从整个数据集开始,作为第一个父节点。然后,该树使用节点分割标准将数据拆分为 2 个更均匀的儿童节点。此步骤反复重复,直到所有未喷溅的节点符合作为终端节点的标准。之后,使用单独的测试集进行交叉验证或验证,以修剪树以获得最佳树,即 CART 模型。单个决策树易于理解,可以适合具有多种特征的数据集。

单决策树可能不如其他 2 种基于树的方法坚固且功能更弱。例如,数据集中预测值的微小变化可能导致非常不同的 CART 模型。TreeNet® 和 Random Forests® 方法使用单个树组创建模型,这些模型比单个决策树的模型更坚固、更准确。

有关每个型号类型的更多信息,请使用以下链接: