適合モデル for の例 TreeNet^® 回帰

注

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください。

研究チームは、借り手と不動産の場所に関するデータを使用して、住宅ローンの金額を予測したいと考えています。変数には、借り手の収入、人種、性別、および物件の国勢調査地区の場所、借り手と財産の種類に関するその他の情報が含まれます。

重要な予測変数を特定するための CART^® 回帰最初の調査の後、チームは必要なフォローアップステップとして考慮 TreeNet^® 回帰します。研究者たちは、応答と重要な予測変数との関係をより深く洞察し、より正確に新しい観測を予測したいと考えています。

これらのデータは、連邦住宅ローン銀行の住宅ローンに関する情報を含む公開データセットに基づいています。元データはfhfa.govです。

住宅ローンの購入.MWXサンプルデータを開きます。
予測分析モジュール > TreeNet®回帰 > 適合モデルを選択します。
応答にを入力します貸付金額。
に連続予測変数– 地区収入を入力します年収。
にカテゴリ予測変数– コアベースの統計領域を入力します初めての家屋購入者。
検証をクリックします。
検証法でK分割交差検証を選択します。
分割数 (K)に、3と入力します。
各ダイアログボックスのOKをクリックします。

結果を解釈する

この分析では、Minitabは300本の木を増加させ、最適な木の数は300本です。最適な木の数が、モデルが成長する木の最大数に近いため、木の数を増やして再実行します。

モデル要約

合計予測変数	34
重要な予測変数	19
増加した木の数	300
最適な木の数	300

統計量	トレーニング	テスト
R二乗	94.02%	84.97%
二乗平均平方根誤差（RMSE）	32334.5587	51227.9431
平均平方誤差 (MSE)	1.04552E+09	2.62430E+09
平均絶対偏差 (MAD)	22740.1020	35974.9695
平均絶対パーセント誤差（MAPE）	0.1238	0.1969

500 本のツリーを含む例

結果で選択しますハイパーパラメータの調整。
木の数に、500と入力します。
結果を表示をクリックします。

結果を解釈する

この分析では、500本の木が増加し、精度基準の最適値を持つハイパーパラメーターの組み合わせとして最適な木の数は500です。サブサンプル割合は、元の分析の0.5の代わりに0.7に変更されます。学習率は、元の分析の0.04372の代わりに0.0437に変更されます。

モデル要約表とR二乗対木の数プロットの両方を確認します。木の数が500のときのR² 値は、テストデータでは86.79%、学習データでは96.41%です。これらの結果は、従来の回帰分析とよりも改善されていますCART^® 回帰。

方法

損失関数	二乗誤差
木の最適な数の選択基準	最大R二乗
モデル検証	3分割交差検証
学習率	0.04372
サブサンプルの割合	0.5
木あたりの最大終端ノード	6
最小終端節サイズ	3
ノード分岐に対して選択された予測変数の数	予測変数の合計数 = 34
使用中の行	4372

応答情報

平均	標準偏差	最小	Q1	中央値	Q3	最大
235217	132193	23800	136000	208293	300716	1190000

ハイパーパラメータ調整によるTreeNet® 回帰: 貸付金額対年収, 所得率, フロントエンド比率, バックエンド比率, 借主数, 年齢, 共同借主の年齢, 土地における少数派の割合, 土地収入, 地域収入, 地区収入, 初めての家屋購入者, 占有コード, デルフ雇用, 共同借主の人種4, 共同借主の人種5, 貸付目的, 性別, ユニット数, 民族, 共同借主の人種3, 共同借主の性別, 人種2, 共同借主の民族性, クレジットスコア, 共同借り手クレジットスコア, 人種, 共同借主の人種2, 共同借主の人種, 物件の種類, 連邦管区, 州コード, 郡コード, コアベースの統計領域

方法

損失関数	二乗誤差
木の最適な数の選択基準	最大R二乗
モデル検証	3分割交差検証
学習率	0.001, 0.0437, 0.1
サブサンプルの割合	0.5, 0.7
木あたりの最大終端ノード	6
最小終端節サイズ	3
ノード分岐に対して選択された予測変数の数	予測変数の合計数 = 34
使用中の行	4372

応答情報

平均	標準偏差	最小	Q1	中央値	Q3	最大
235217	132193	23800	136000	208293	300716	1190000

ハイパーパラメータの最適化

テスト

モデル	最適な木の数	R二乗（%）	平均絶対偏差	学習率	サブサンプルの割合	最大終端ノード
1	500	36.43	82617.1	0.0010	0.5	6
2	495	85.87	34560.5	0.0437	0.5	6
3	495	85.63	34889.3	0.1000	0.5	6
4	500	36.86	82145.0	0.0010	0.7	6
5*	500	86.79	33052.6	0.0437	0.7	6
6	451	86.67	33262.3	0.1000	0.7	6

モデル要約

合計予測変数	34
重要な予測変数	24
増加した木の数	500
最適な木の数	500

統計量	トレーニング	テスト
R二乗	96.41%	86.79%
二乗平均平方根誤差（RMSE）	25035.7243	48029.9503
平均平方誤差 (MSE)	6.26787E+08	2.30688E+09
平均絶対偏差 (MAD)	17309.3936	33052.6087
平均絶対パーセント誤差（MAPE）	0.0930	0.1790