使用 TreeNet^® 分类的拟合模型和发现关键预测变量的方法

注意

TreeNet^® 模型是解决分类和回归问题的方法，与单一分类或回归树相比，既准确又不易过度拟合。宽泛而言，在该过程刚开始时我们将使用一个小回归树作为初始模型。从该树上，数据中的每一行都有残差，这些残差成为下一个回归树的响应变量。我们构建另一个回归小树来预测第一个树的残差并再次计算产生的残差。我们重复此序列，直到使用验证方法确定具有最小预测误差的最优树数量。生成的树序列形成 TreeNet^® 分类模型。

对于分类案例，我们可以为具有二元响应的分析和具有多项式响应的分析添加一些更多的数学细节。

二元响应变量

创建模型时使用以下信息：

响应变量，，采用以下值：{-1, 1}。
用于计算广义残差的初始拟合值具有以下形式：

其中，是事件数，是非事件数。

创建模型时还会使用来自分析人员的以下输入：

输入	符号
学习速率
抽样率
每个树的最大终端节点数
树数

该过程有以下一般步骤来生成第 j 个树，j=1,...,J：

从训练数据中抽取数量为 s * N 的随机样本，其中 N 是训练数据中的行数。
计算广义残差 g_{i, j}（对于）：
其中，

并且是代表训练数据中预测变量值的第 i 行的矢量。
将最多具有 M 个终端节点的回归树与广义残差拟合。该树将观测值最多分割为 M 个互斥组。
对于回归树中的第 m个终端节点，计算上一个树中拟合值的节点内更新数，如下所示：

其中，
项说明
树 j 处终端节点 m 中的事件数
树 j 处终端节点 m 中的案例数
以下项的算术均值：（对于树 j 处终端节点 m 中的所有情况）
按学习速率减少节点内更新数并应用这些值以获取经过更新的拟合值 f_j(x_i)：
对分析中的每个 J 树，重复步骤 1 到 5。

项	说明
	树 j 处终端节点 m 中的事件数
	树 j 处终端节点 m 中的案例数
	以下项的算术均值：（对于树 j 处终端节点 m 中的所有情况）

多项式响应

对于具有 K 个水平的多项式响应，在每次迭代时，分析功能将树与响应变量的每个水平相拟合。用于计算其中每个树的广义残差的初始拟合值具有以下形式：

其中，是案例数，其中响应值是 k，N 是训练数据中的行数。

创建模型时还会使用来自分析人员的以下输入：

输入	符号
学习速率
抽样率
每个树的最大终端节点数
树数

根据拟合值计算概率时将考虑这些树的依存性质。否则，该过程与二元案例基本相同。

从训练数据中抽取数量为 s * N 的随机样本，其中 N 是训练数据集中的行数。
计算广义残差 g_{i, j, k}（对于、（分析中的树数）和（响应变量中的水平数））：

其中，

并且是一个代表训练数据集中预测变量值第i 行的矢量。

例如，具有 3 个水平的多项式响应中编码为 1 的结果的概率具有以下形式：

其中，是响应变量的第 k 个水平的第 j-1 个树处第 i 行的拟合值。
将最多具有 M 个终端节点的回归树与广义残差拟合。该树将观测值最多分割为 M 个互斥组。
对于第 j 个回归树中的第 m 个终端节点，计算上一个树中拟合值的节点内更新数，如下所示：

其中，

项说明
在树 j 处终端节点 m 中的结果 k 的案例数
树 j 处终端节点 m 中的案例数
以下项的算术均值：（对于树 j 处终端节点 m 中的所有情况）。
按学习速率减少节点内更新数并应用这些值以获取经过更新的拟合值 f_{j, k, m}(x_i)：
对分析中的 J 个树中的每一个和响应变量的 K 个水平的每一个重复步骤 1-5。

项	说明
	在树 j 处终端节点 m 中的结果 k 的案例数
	树 j 处终端节点 m 中的案例数
	以下项的算术均值：（对于树 j 处终端节点 m 中的所有情况）。

使用 TreeNet® 分类 的 拟合模型 和 发现关键预测变量的方法

注意

二元响应变量

多项式响应

使用 TreeNet^® 分类的拟合模型和发现关键预测变量的方法