このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください。
研究チームは、借り手と不動産の場所に関するデータを使用して、住宅ローンの金額を予測したいと考えています。変数には、借り手の収入、人種、性別、および物件の国勢調査地区の場所、借り手と財産の種類に関するその他の情報が含まれます。
重要な予測変数を特定するためにCART® 回帰で最初の探査を行った後、チームは、必要なフォローアップステップとしてTreeNet® 回帰を検討します。研究者たちは、応答と重要な予測変数との関係をより深く洞察し、より正確に新しい観測を予測したいと考えています。
これらのデータは、連邦住宅ローン銀行の住宅ローンに関する情報を含む公開データセットに基づいています。元データはfhfa.govです。
この分析では、Minitabは300本の木を増加させ、最適な木の数は300本です。最適な木の数が、モデルが成長する木の最大数に近いため、木の数を増やして再実行します。
この分析では、500本の木が増加し、精度基準の最適値を持つハイパーパラメーターの組み合わせとして最適な木の数は500です。サブサンプル割合は、元の分析の0.5の代わりに0.7に変更されます。学習率は、元の分析の0.04372の代わりに0.0437に変更されます。
モデル要約表とR二乗対木の数プロットの両方を確認します。木の数が500の場合のR2の値は、テストデータの場合は86.79%、トレーニングデータの場合は96.41%です。これらの結果は、従来の回帰分析とCART® 回帰よりも改善されています。
相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数は、コアベース統計領域です。最上の予測変数であるコアベース統計地域の重要度が100%の場合、次に重要な変数である年収は92.8%の寄与度を有します。これは、借り手の年収が不動産の地理的位置と同じくらい92.8%重要であることを意味します。
適合済みローン金額と実際のローン金額の散布図は、トレーニングデータとテストデータの両方の適合済み値と実際の値の関係を示しています。グラフ上のポイントにカーソルを合わせると、プロットされた値をより簡単に確認できます。この例では、すべての点が y=x の参照線の近くに落ちます。
最初のプロットは、各コアベースの統計面積の適合ローン金額を示しています。データポイントが非常に多いため、個々のデータポイントにカーソルを合わせると、特定のX値とy値を確認できます。たとえば、グラフの右側の最も高いポイントはコアエリア番号41860で、適合ローンの金額は約$378069です。
2番目のプロットは、年収が増加するにつれて適合ローン金額が増加することを示しています。年収が300000ドルに到達した後、適合ローンの金額レベルの上昇率は低下します。
3番目のプロットは、フロントエンド比率が増加するにつれて適合ローン金額が増加することを示しています。
4番目のプロットは、国勢調査郡コードごとの適合ローン金額を示しています最初のプロットと同様に、特定のデータポイントにカーソルを合わせて、より多くの情報を得ることができます。プロットする予測変数をさらに多く選択するをクリックして他の変数のプロットを作成します。