研究チームは、借り手と不動産の場所に関するデータを使用して、住宅ローンの金額を予測したいと考えています。変数には、借り手の収入、人種、性別、および物件の国勢調査地区の場所、借り手と財産の種類に関するその他の情報が含まれます。
重要な予測変数を特定するための CART®
回帰 最初の調査の後、チームは必要なフォローアップステップとして考慮 TreeNet®
回帰 します。研究者たちは、応答と重要な予測変数との関係をより深く洞察し、より正確に新しい観測を予測したいと考えています。
これらのデータは、連邦住宅ローン銀行の住宅ローンに関する情報を含む公開データセットに基づいています。元データはfhfa.govです。
結果を解釈する
この分析では、500本の木が増加し、精度基準の最適値を持つハイパーパラメーターの組み合わせとして最適な木の数は500です。サブサンプル割合は、元の分析の0.5の代わりに0.7に変更されます。学習率は、元の分析の0.04372の代わりに0.0437に変更されます。
モデル要約表とR二乗対木の数プロットの両方を確認します。木の数が500のときのR2 値は、テストデータでは86.79%、学習データでは96.41%です。これらの結果は、従来の回帰分析とよりも改善されていますCART®
回帰。
方法
損失関数 | 二乗誤差 |
---|
木の最適な数の選択基準 | 最大R二乗 |
---|
モデル検証 | 3分割交差検証 |
---|
学習率 | 0.04372 |
---|
サブサンプルの割合 | 0.5 |
---|
木あたりの最大終端ノード | 6 |
---|
最小終端節サイズ | 3 |
---|
ノード分岐に対して選択された予測変数の数 | 予測変数の合計数 = 34 |
---|
使用中の行 | 4372 |
---|
応答情報
235217 | 132193 | 23800 | 136000 | 208293 | 300716 | 1190000 |
---|
ハイパーパラメータ調整によるTreeNet® 回帰: 貸付金額 対 年収, 所得率, フロントエンド比率, バックエンド比率, 借主数, 年齢, 共同借主の年齢, 土地における少数派の割合, 土地収入, 地域収入, 地区収入, 初めての家屋購入者, 占有コード, デルフ雇用, 共同借主の人種4, 共同借主の人種5, 貸付目的, 性別, ユニット数, 民族, 共同借主の人種3, 共同借主の性別, 人種2, 共同借主の民族性, クレジットスコア, 共同借り手クレジットスコア, 人種, 共同借主の人種2, 共同借主の人種, 物件の種類, 連邦管区, 州コード, 郡コード, コアベースの統計領域
方法
損失関数 | 二乗誤差 |
---|
木の最適な数の選択基準 | 最大R二乗 |
---|
モデル検証 | 3分割交差検証 |
---|
学習率 | 0.001, 0.0437, 0.1 |
---|
サブサンプルの割合 | 0.5, 0.7 |
---|
木あたりの最大終端ノード | 6 |
---|
最小終端節サイズ | 3 |
---|
ノード分岐に対して選択された予測変数の数 | 予測変数の合計数 = 34 |
---|
使用中の行 | 4372 |
---|
応答情報
235217 | 132193 | 23800 | 136000 | 208293 | 300716 | 1190000 |
---|
ハイパーパラメータの最適化
テスト
1 | 500 | 36.43 | 82617.1 | 0.0010 | 0.5 | 6 |
---|
2 | 495 | 85.87 | 34560.5 | 0.0437 | 0.5 | 6 |
---|
3 | 495 | 85.63 | 34889.3 | 0.1000 | 0.5 | 6 |
---|
4 | 500 | 36.86 | 82145.0 | 0.0010 | 0.7 | 6 |
---|
5* | 500 | 86.79 | 33052.6 | 0.0437 | 0.7 | 6 |
---|
6 | 451 | 86.67 | 33262.3 | 0.1000 | 0.7 | 6 |
---|
モデル要約
合計予測変数 | 34 |
---|
重要な予測変数 | 24 |
---|
増加した木の数 | 500 |
---|
最適な木の数 | 500 |
---|
R二乗 | 96.41% | 86.79% |
---|
二乗平均平方根誤差(RMSE) | 25035.7243 | 48029.9503 |
---|
平均平方誤差 (MSE) | 6.26787E+08 | 2.30688E+09 |
---|
平均絶対偏差 (MAD) | 17309.3936 | 33052.6087 |
---|
平均絶対パーセント誤差(MAPE) | 0.0930 | 0.1790 |
---|