適合モデル for の例 TreeNet® 回帰

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

研究チームは、借り手と不動産の場所に関するデータを使用して、住宅ローンの金額を予測したいと考えています。変数には、借り手の収入、人種、性別、および物件の国勢調査地区の場所、借り手と財産の種類に関するその他の情報が含まれます。

重要な予測変数を特定するための CART® 回帰 最初の調査の後、チームは必要なフォローアップステップとして考慮 TreeNet® 回帰 します。研究者たちは、応答と重要な予測変数との関係をより深く洞察し、より正確に新しい観測を予測したいと考えています。

これらのデータは、連邦住宅ローン銀行の住宅ローンに関する情報を含む公開データセットに基づいています。元データはfhfa.govです。

  1. 住宅ローンの購入.MTWサンプルデータを開きます。
  2. 予測分析モジュール > TreeNet®回帰 > 適合モデル を選択します。
  3. 応答にを入力します貸付金額
  4. 連続予測変数地区収入を入力します 年収
  5. カテゴリ予測変数コアベースの統計領域を入力します 初めての家屋購入者
  6. 検証をクリックします。
  7. 検証法K分割交差検証を選択します。
  8. 分割数 (K)に、3と入力します。
  9. 各ダイアログボックスのOKをクリックします。

結果を解釈する

この分析では、Minitabは300本の木を増加させ、最適な木の数は300本です。最適な木の数が、モデルが成長する木の最大数に近いため、木の数を増やして再実行します。

モデル要約

合計予測変数34
重要な予測変数19
増加した木の数300
最適な木の数300
統計量トレーニングテスト
R二乗94.02%84.97%
二乗平均平方根誤差(RMSE)32334.558751227.9431
平均平方誤差 (MSE)1.04552E+092.62430E+09
平均絶対偏差 (MAD)22740.102035974.9695
平均絶対パーセント誤差(MAPE)0.12380.1969

500 本のツリーを含む例

  1. 結果で選択します ハイパーパラメータの調整
  2. 木の数に、500と入力します。
  3. 結果を表示をクリックします。

結果を解釈する

この分析では、500本の木が増加し、精度基準の最適値を持つハイパーパラメーターの組み合わせとして最適な木の数は500です。サブサンプル割合は、元の分析の0.5の代わりに0.7に変更されます。学習率は、元の分析の0.04372の代わりに0.0437に変更されます。

モデル要約表とR二乗対木の数プロットの両方を確認します。木の数が500のときのR2 値は、テストデータでは86.79%、学習データでは96.41%です。これらの結果は、従来の回帰分析とよりも改善されていますCART® 回帰

方法

損失関数二乗誤差
木の最適な数の選択基準最大R二乗
モデル検証3分割交差検証
学習率0.04372
サブサンプルの割合0.5
木あたりの最大終端ノード6
最小終端節サイズ3
ノード分岐に対して選択された予測変数の数予測変数の合計数 = 34
使用中の行4372

応答情報

平均標準偏差最小Q1中央値Q3最大
235217132193238001360002082933007161190000
ハイパーパラメータ調整によるTreeNet® 回帰: 貸付金額 対 年収, 所得率, フロントエンド比率, バックエンド比率, 借主数, 年齢, 共同借主の年齢, 土地における少数派の割合, 土地収入, 地域収入, 地区収入, 初めての家屋購入者, 占有コード, デルフ雇用, 共同借主の人種4, 共同借主の人種5, 貸付目的, 性別, ユニット数, 民族, 共同借主の人種3, 共同借主の性別, 人種2, 共同借主の民族性, クレジットスコア, 共同借り手クレジットスコア, 人種, 共同借主の人種2, 共同借主の人種, 物件の種類, 連邦管区, 州コード, 郡コード, コアベースの統計領域

方法

損失関数二乗誤差
木の最適な数の選択基準最大R二乗
モデル検証3分割交差検証
学習率0.001, 0.0437, 0.1
サブサンプルの割合0.5, 0.7
木あたりの最大終端ノード6
最小終端節サイズ3
ノード分岐に対して選択された予測変数の数予測変数の合計数 = 34
使用中の行4372

応答情報

平均標準偏差最小Q1中央値Q3最大
235217132193238001360002082933007161190000

ハイパーパラメータの最適化

テスト
モデル最適な木の数R二乗(%)平均絶対偏差学習率サブサンプルの割合最大終端ノード
150036.4382617.10.00100.56
249585.8734560.50.04370.56
349585.6334889.30.10000.56
450036.8682145.00.00100.76
5*50086.7933052.60.04370.76
645186.6733262.30.10000.76
* 最適モデルは最大R-2乗を有する。最適なモデルの出力は以下の通りです。

モデル要約

合計予測変数34
重要な予測変数24
増加した木の数500
最適な木の数500
統計量トレーニングテスト
R二乗96.41%86.79%
二乗平均平方根誤差(RMSE)25035.724348029.9503
平均平方誤差 (MSE)6.26787E+082.30688E+09
平均絶対偏差 (MAD)17309.393633052.6087
平均絶対パーセント誤差(MAPE)0.09300.1790

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数は、コアベース統計領域です。上位の予測変数であるコアベースの統計領域の重要度が100%の場合、次に重要な変数である年収の寄与度は92.8%です。これは、借り手の年収が不動産の地理的位置の92.8%重要であることを意味します。

適合済みローン金額と実際のローン金額の散布図は、トレーニングデータとテストデータの両方の適合済み値と実際の値の関係を示しています。グラフ上のポイントにカーソルを合わせると、プロットされた値をより簡単に確認できます。この例では、すべての点が y=x の参照線の近くに落ちます。

偏依存プロットを使用して、重要な変数または変数のペアが適合応答値にどのように影響するかについての洞察を得ます。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

最初のプロットは、各コアベースの統計面積の適合ローン金額を示しています。データポイントが非常に多いため、個々のデータポイントにカーソルを合わせると、特定のX値とy値を確認できます。たとえば、グラフの右側の最も高いポイントはコアエリア番号41860で、適合ローンの金額は約$378069です。

2番目のプロットは、年収が増加するにつれて適合ローン金額が増加することを示しています。年収が300000ドルに到達した後、適合ローンの金額レベルの上昇率は低下します。

3番目のプロットは、フロントエンド比率が増加するにつれて適合ローン金額が増加することを示しています。

4 番目のプロットは、各国勢調査郡コードの調整ローン額を示しています。最初のプロットと同様に、特定のデータポイントにカーソルを合わせて、より多くの情報を得ることができます。[または 二予測変数プロット ] を選択して 一予測変数プロット 、他の変数のプロットを生成します。