TreeNet® 回帰での適合モデルの例

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

研究チームは、借り手と不動産の場所に関するデータを使用して、住宅ローンの金額を予測したいと考えています。変数には、借り手の収入、人種、性別、および物件の国勢調査地区の場所、借り手と財産の種類に関するその他の情報が含まれます。

重要な予測変数を特定するためにCART® 回帰で最初の探査を行った後、チームは、必要なフォローアップステップとしてTreeNet® 回帰を検討します。研究者たちは、応答と重要な予測変数との関係をより深く洞察し、より正確に新しい観測を予測したいと考えています。

これらのデータは、連邦住宅ローン銀行の住宅ローンに関する情報を含む公開データセットに基づいています。元データはfhfa.govです。

  1. 住宅ローンの購入.MTWサンプルデータを開きます。
  2. 予測分析モジュール > TreeNet®回帰 > 適合モデル を選択します。
  3. 応答貸付金額を入力します。
  4. 連続予測変数に、年収地区収入を入力します。
  5. カテゴリ予測変数に、初めての家屋購入者コアベースの統計領域を入力します。
  6. 検証をクリックします。
  7. 検証法K分割交差検証を選択します。
  8. 分割数 (K)に、3と入力します。
  9. 各ダイアログボックスのOKをクリックします。

結果を解釈する

この分析では、Minitabは300本の木を増加させ、最適な木の数は300本です。最適な木の数が、モデルが成長する木の最大数に近いため、木の数を増やして再実行します。

TreeNet® 回帰: 貸付金額 対 年収, 所得率, フロントエンド比率, バックエンド比率, 借主数, 年齢, 共同借主の年齢, ...

モデル要約 合計予測変数 34 重要な予測変数 19 増加した木の数 300 最適な木の数 300 統計量 トレーニング テスト R二乗 94.02% 84.97% 二乗平均平方根誤差(RMSE) 32334.5587 51227.9431 平均平方誤差 (MSE) 1045523683.1610 2624302154.9887 平均絶対偏差 (MAD) 22740.1020 35974.9695 平均絶対パーセント誤差(MAPE) 0.1238 0.1969

500 本のツリーを含む例

  1. モデル要約表の後で、 より良いモデルを識別するためにハイパーパラメーターを調整するをクリックします。
  2. 木の数に、500と入力します。
  3. 結果を表示をクリックします。

結果を解釈する

この分析では、500本の木が増加し、精度基準の最適値を持つハイパーパラメーターの組み合わせとして最適な木の数は500です。サブサンプル割合は、元の分析の0.5の代わりに0.7に変更されます。学習率は、元の分析の0.04372の代わりに0.0437に変更されます。

モデル要約表とR二乗対木の数プロットの両方を確認します。木の数が500のときのR2 値は、テストデータでは86.79%、学習データでは96.41%です。これらの結果は、従来の回帰分析とCART® 回帰よりも改善されています。

TreeNet® 回帰: 貸付金額 対 年収, 所得率, フロントエンド比率, バックエンド比率, 借主数, 年齢, 共同借主の年齢, ...

方法 損失関数 二乗誤差 木の最適な数の選択基準: 最大R二乗 モデル検証 3分割交差検証 学習率 0.04372 サブサンプルの割合 0.5 木あたりの最大終端ノード 6 最小終端節サイズ 3 ノード分岐に対して選択された予測変数の数 予測変数の合計数 = 34 使用中の行 4372
応答情報 平均 標準偏差 最小 Q1 中央値 Q3 最大 235217 132193 23800 136000 208293 300716 1190000

ハイパーパラメータ調整によるTreeNet®回帰: 貸付金額対年収, 所得率, フロントエンド比率, バックエンド比率, 借主数, 年齢, ...

方法 損失関数 二乗誤差 木の最適な数の選択基準: 最大R二乗 モデル検証 3分割交差検証 学習率 0.001, 0.0437, 0.1 サブサンプルの割合 0.5, 0.7 木あたりの最大終端ノード 6 最小終端節サイズ 3 ノード分岐に対して選択された予測変数の数 予測変数の合計数 = 34 使用中の行 4372
応答情報 平均 標準偏差 最小 Q1 中央値 Q3 最大 235217 132193 23800 136000 208293 300716 1190000
ハイパーパラメータの最適化 テスト モデル 最適な木の数 R二乗(%) 平均絶対偏差 学習率 サブサンプルの割合 最大終端ノード 1 500 36.43 82617.1 0.0010 0.5 6 2 495 85.87 34560.5 0.0437 0.5 6 3 495 85.63 34889.3 0.1000 0.5 6 4 500 36.86 82145.0 0.0010 0.7 6 5* 500 86.79 33052.6 0.0437 0.7 6 6 451 86.67 33262.3 0.1000 0.7 6 * 最適モデルは最大R-2乗を有する。最適なモデルの出力は以下の通りです。

TreeNet® 回帰: 貸付金額 対 年収, 所得率, フロントエンド比率, バックエンド比率, 借主数, 年齢, 共同借主の年齢, ...

モデル要約 合計予測変数 34 重要な予測変数 24 増加した木の数 500 最適な木の数 500 統計量 トレーニング テスト R二乗 96.41% 86.79% 二乗平均平方根誤差(RMSE) 25035.7243 48029.9503 平均平方誤差 (MSE) 626787491.1374 2306876123.1055 平均絶対偏差 (MAD) 17309.3936 33052.6087 平均絶対パーセント誤差(MAPE) 0.0930 0.1790

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数は、コアベース統計領域です。上位の予測変数であるコアベースの統計領域の重要度が100%の場合、次に重要な変数である年収の寄与度は92.8%です。これは、借り手の年収が不動産の地理的位置の92.8%重要であることを意味します。

適合済みローン金額と実際のローン金額の散布図は、トレーニングデータとテストデータの両方の適合済み値と実際の値の関係を示しています。グラフ上のポイントにカーソルを合わせると、プロットされた値をより簡単に確認できます。この例では、すべての点が y=x の参照線の近くに落ちます。

偏依存プロットを使用して、重要な変数または変数のペアが適合応答値にどのように影響するかについての洞察を得ます。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

最初のプロットは、各コアベースの統計面積の適合ローン金額を示しています。データポイントが非常に多いため、個々のデータポイントにカーソルを合わせると、特定のX値とy値を確認できます。たとえば、グラフの右側の最も高いポイントはコアエリア番号41860で、適合ローンの金額は約$378069です。

2番目のプロットは、年収が増加するにつれて適合ローン金額が増加することを示しています。年収が300000ドルに達すると、適合ローン額のレベルはゆっくりとした速度で増加します。

3番目のプロットは、フロントエンド比率が増加するにつれて適合ローン金額が増加することを示しています。

4番目のプロットは、国勢調査郡コードごとの適合ローン金額を示しています最初のプロットと同様に、特定のデータポイントにカーソルを合わせて、より多くの情報を得ることができます。プロットする予測変数をさらに多く選択するをクリックして他の変数のプロットを作成します。