このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください。
研究チームは、アイオワ州エイムズの個々の居住用不動産の販売データを収集しています。研究者は、販売価格に影響を与える変数を特定したいと考えています。変数には、ロットサイズや居住用不動産のさまざまな特徴が含まれます。
重要な予測変数を特定するためにCART® 回帰で最初の探査を行った後、研究者はRandom Forests® 回帰を使用して同じデータセットからより集約的なモデルを作成します。研究者は、結果のモデル要約表とR2プロットを比較して、どちらが予測精度の高いモデルかを評価します。
これらのデータは、エイムズ住宅データの情報を含む公開データセットに基づいて調整されています。Truman州立大学DeCock教授からのオリジナルデータ。
R二乗対木の数プロットは、増加した木の数に対する曲線全体を示します。R2 値は、樹木の数が増えるにつれて急速に増加し、その後約91%で平坦化する。
モデル要約表は、R2値が対応するCART®分析のR2値よりもわずかに改善されていることを示しています。
相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。販売価格を予測するための最も重要な予測変数は品質です。上位の予測変数である品質の重要性が100%の場合、次に重要な変数である居住面積SFの寄与度は88.8%です。これは、生活の平方フィートが物件の全体的な品質と同じくらい88.8%重要であることを意味します。次に重要な変数は、52.6%の寄与度を持つ近傍です。
適合された販売金額と実際の販売金額の散布図は、アウトオブバッグデータの適合値と実際の値の関係を示しています。グラフ上のポイントにカーソルを合わせると、プロットされた値をより簡単に確認できます。この例では、多くのポイントが y=x の参照ライン付近に位置しますが、適合値と実測値の間に不一致が見られるために、いくつかのポイントを調査する必要があります。