拟合模型 for 的示例 TreeNet^® 回归

注意

此命令适用于预测分析模块。单击此处了解更多关于如何激活模块的信息。

一个研究小组希望使用有关借款人和房产位置的数据来预测抵押金额。变量包括借款人的收入、种族和性别，以及房产的人口普查区位置和其他有关借款人和房产类型的信息。

在初步探索 CART^® 回归以确定重要预测因子后，该团队现在认为 TreeNet^® 回归这是必要的后续步骤。研究人员希望更深入地了解响应与重要预测变量之间的关系，并且更准确地预测新观测值。

这些数据根据一个包含有关联邦住房贷款银行抵押信息的公共数据集进行了改编。原始数据来自 fhfa.gov。

打开样本数据集购买抵押.MWX。
选择预测分析模块 > TreeNet® 回归 > 拟合模型。
在响应中，输入贷款金额。
在连续预测变量中，输入年收入 – 地区收入。
在类别预测变量中，输入首次购房者 – 基于核心的统计区域。
单击验证。
在验证方法中，选择 K 折叠交叉验证。
在折叠数 (K)中，输入 3。
单击每个对话框中的确定。

解释结果

对于此分析，Minitab 生成 300 个树，最优树数为 300。由于最优树数接近模型生成的最大树数，研究人员使用更多树重复运行分析。

模型汇总

总预测变量	34
重要预测变量	19
增长的树数	300
最优树数	300

统计量	训练	测试
R 平方	94.02%	84.97%
均方根误差 (RMSE)	32334.5587	51227.9431
均方误差 (MSE)	1.04552E+09	2.62430E+09
平均绝对偏差 (MAD)	22740.1020	35974.9695
平均绝对百分比误差 (MAPE)	0.1238	0.1969

使用 500 个树的示例

在结果中选择调整超参数。
在树数中，输入 500。
单击显示结果。

解释结果

对于这个分析，生成了 500 个树，具有准确度标准最佳值的超参数组合的最优树数是 500。子样本部分更改为 0.7，而不是原始分析中的 0.5。在原始分析中，学习速率更改为 0.0437，而不是 0.04372。

检查模型汇总表和 R 平方与树数图。当树数为 500 时，R² 值对于测试数据为 86.79%，对于训练数据为 96.41%。这些结果与传统的回归分析和相比有所改进CART^® 回归。

方法

损失函数	平方误差
选择最优树数量的标准	最大 R 平方
模型验证	3 折叠交叉验证
学习速率	0.04372
子样本部分	0.5
每个树的最大终端节点数	6
最小终端节点大小	3
为进行节点拆分而选定的预测变量数	预测变量总数 = 34
已使用的行数	4372

响应信息

均值	标准差	最小值	下四分位数	中位数	上四分位数	最大值
235217	132193	23800	136000	208293	300716	1190000

具有超参数调整的 TreeNet® 回归: 贷款金额与年收入, 收入比率, 前端比率, 后端比率, 借款人数量, 年龄, 共同借款人年龄, 普查区少数族裔百分比, 普查区收入, 当地收入, 地区收入, 首次购房者, 房屋居住代码, 自由职业者, 共同借款人种族 4, 共同借款人种族 5, 贷款用途, 性别, 单元数, 种族划分, 共同借款人种族 3, 共同借款人性别, 种族 2, 共同借款人族裔, 信用评分, 共同借款人信用评分, 种族, 共同借款人种族 2, 共同借款人种族, 房产类型, 联邦区, 州代码, 县代码, 基于核心的统计区域

方法

损失函数	平方误差
选择最优树数量的标准	最大 R 平方
模型验证	3 折叠交叉验证
学习速率	0.001, 0.0437, 0.1
子样本部分	0.5, 0.7
每个树的最大终端节点数	6
最小终端节点大小	3
为进行节点拆分而选定的预测变量数	预测变量总数 = 34
已使用的行数	4372

响应信息

均值	标准差	最小值	下四分位数	中位数	上四分位数	最大值
235217	132193	23800	136000	208293	300716	1190000

超参数优化

测试

模型	最优树数	R 平方 (%)	平均绝对偏差	学习速率	子样本部分	最大终端节点数
1	500	36.43	82617.1	0.0010	0.5	6
2	495	85.87	34560.5	0.0437	0.5	6
3	495	85.63	34889.3	0.1000	0.5	6
4	500	36.86	82145.0	0.0010	0.7	6
5*	500	86.79	33052.6	0.0437	0.7	6
6	451	86.67	33262.3	0.1000	0.7	6

模型汇总

总预测变量	34
重要预测变量	24
增长的树数	500
最优树数	500

统计量	训练	测试
R 平方	96.41%	86.79%
均方根误差 (RMSE)	25035.7243	48029.9503
均方误差 (MSE)	6.26787E+08	2.30688E+09
平均绝对偏差 (MAD)	17309.3936	33052.6087
平均绝对百分比误差 (MAPE)	0.0930	0.1790