TreeNet® 分类拟合模型发现关键预测变量 的概述

注意

此命令适用于 预测分析模块单击此处了解更多关于如何激活模块的信息

使用 TreeNet® 分类 可以为具有许多连续预测变量和类别预测变量的类别响应生成梯度提升分类树。TreeNet® 分类 是对 Jerome Friedman(世界上最杰出的数据挖掘研究专家之一)开发的数据挖掘技术的革命性改进。这种灵活而强大的数据挖掘工具能够以非常快的速度持续生成极其精确的模型,并且对混乱和不完整的数据具有很高的容错能力。

例如,市场研究人员可以使用TreeNet® 分类来识别对特定计划具有更高响应率的客户,并预测这些响应率。

CART® 分类是有效的数据探索分析工具,它提供了易于理解的模型,可以快速确定重要的预测变量。然而,使用 CART® 分类 进行初步探索后,考虑使用 TreeNet® 分类 作为必要的后续步骤。TreeNet® 分类 提供了一个更为复杂的高性能模型,其中可包含由几百个小树。每个树对整体模型的贡献量很小。根据 TreeNet® 分类 结果,您可以深入了解类别响应与许多候选预测变量中重要预测变量之间的关系,并以非常高的准确度预测新观测值的响应类别概率。

TreeNet® 分类 分析可提供单预测变量部分依赖图和双预测变量部分依赖图。这些图可帮助您评估主要预测变量的更改如何对响应值产生影响。因此,在控制设置以实现最佳生产结果上,这些信息可能很有用。

TreeNet® 分类 分析还提供了为模型尝试不同超参数的能力。学习速率和子样本部分是超参数的示例。探索不同的值是提高模型性能的常用方法。

有关 CART® 方法更为完整的说明,请参见 Breiman、Friedman、Olshen 和 Stone (1984)12

拟合模型

使用 拟合模型 可以为具有许多连续和类别预测变量的类别响应构建单一梯度提升类别树模型。结果用于学习过程中具有最大对数似然、ROC 曲线下最大面积或最小误分类率的模型。

发现关键预测变量

对于具有许多预测变量的数据集,其中某些预测变量对响应的影响比其他预测变量小,请考虑使用 发现关键预测变量 排除模型中不重要的预测变量。删除不重要的预测变量有助于澄清最重要的预测变量的影响,并提高预测的准确度。该算法会按顺序删除最不重要的预测变量,显示让您将模型与不同数量的预测变量进行比较的结果,并为具有准确度标准最佳值的预测变量集合生成结果。

例如,市场研究人员使用 发现关键预测变量 自动识别来自一组 500 个预测变量的十几个预测变量,这些预测变量有效地就哪些客户对特定计划的响应率较高进行了建模。

发现关键预测变量 还可以删除最重要的预测变量,以定量评估每个重要预测变量对模型预测准确度的影响。

在何处找到此分析

要执行拟合模型,请选择预测分析模块 > TreeNet® 分类 > 拟合模型

要执行发现关键预测变量,请选择预测分析模块 > TreeNet® 分类 > 发现关键预测变量

何时使用备择分析

如果要尝试使用具有二值响应变量的参数回归模型,请使用 拟合二元 Logistic 模型

要比较 Random Forests® 分类模型的性能,请使用 Random Forests® 分类

1 Breiman、Friedman、Olshen 和 Stone。 (1984) 编写的Classification and Regression Trees(分类和回归树),由佛罗里达州伯克莱屯:Chapman 和 Hall/CRC.
2 H. Zhang 和 B.H.Singer。 (2010)。Recursive Partitioning and Applications。纽约,纽约: Springer