使用 TreeNet^® 分类的拟合模型和发现关键预测变量中部分依赖图的方法和公式

注意

单预测变量部分依赖图

假设训练数据集中有 m 个预测变量，表示为 x₁、x₂、...、x_m。首先，按升序对训练数据集中预测变量 x₁ 的可区分值进行排序。将 x₁₁ 表示为 x ₁ 的第一个可区分值。则 x₁₁ 是图最左端的 x 坐标。

在 x₁ = x₁₁ 处，y 坐标为

项	说明
N	训练数据集中的总行数
	为观测到的值在训练数据集中
j	J 行的每一行
	在 x₁ = x₁₁、x₂ = x_2j、....、x_m = x_mj 时，模型的拟合值

以 x₁ 的每个可区分值替换 x_11，我们可获得图上其余点的 y 坐标。采用类似方式完成其余预测变量的计算。

使用大型数据集计算 x 的所有可区分值的所有 y 坐标可能非常耗时。对于 TreeNet^®，有更快的计算方法。请参考 Friedman, J. H. (2001)。Greedy function approximation: A gradient boosting machine（贪婪函数近似：梯度推进机）。The Annals of Statistics（统计学年刊），第 29 卷（第 5 期），第 1221 页。

多项式响应案例的计算相似。这里的拟合值来自每个单独类别的模型。

双预测变量部分依赖图

假设训练数据集中有 m 个预测变量，表示为 x₁、x₂、...、x_m。首先，按升序对训练数据集中预测变量 x_1、x₂ 的可区分值进行排序。将 x₁₁、x₂₁ 表示为不同的配对之一。然后，每对在曲面图上绘制一个点的 x 和 y 坐标。

在 x₁ = x₁₁、x₂ = x₂₁ 处的 z 坐标等于

项	说明
N	全部共享 x₁ = x_11、x₂ = x₂₁ 公因子方差的训练数据集中的总行数
	为观测到的值在训练数据集中
j	J 行的每一行
	当 x₁ = x₁₁、x₂ = x₂₁、x₃ = x_3j....、x_m = x_mj 时，模型的拟合值

完成 x ₁ 和 x₂ 的所有可区分值组合的计算，可生成等值线图或曲面图的所有 z 坐标。对于大型数据集，计算所有可区分的 x 和 y 对都很耗时。对于 TreeNet^® 模型，有更快的计算方法。请参考 Friedman, J. H. (2001)。Greedy function approximation: A gradient boosting machine（贪婪函数近似：梯度推进机）。The Annals of Statistics（统计学年刊），第 29 卷（第 5 期），第 1221 页。

使用 TreeNet® 分类 的拟合模型 和 发现关键预测变量 中部分依赖图的方法和公式

注意

单预测变量部分依赖图

双预测变量部分依赖图

使用 TreeNet^® 分类的拟合模型和发现关键预测变量中部分依赖图的方法和公式