Random Forests^® 回帰の例

研究チームは、アイオワ州エイムズの個々の居住用不動産の販売データを収集しています。研究者は、販売価格に影響を与える変数を特定したいと考えています。変数には、ロットサイズや居住用不動産のさまざまな特徴が含まれます。

重要な予測変数を特定するためにCART^® 回帰で最初の探査を行った後、研究者はRandom Forests^® 回帰を使用して同じデータセットからより集約的なモデルを作成します。研究者は、結果のモデル要約表とR²プロットを比較して、どちらが予測精度の高いモデルかを評価します。

これらのデータは、エイムズ住宅データの情報を含む公開データセットに基づいて調整されています。Truman州立大学DeCock教授からのオリジナルデータ。

サンプルデータエイムズ住宅.MWXを開きます。
予測分析モジュール > Random Forests® 回帰を選択します。
応答に「販売価格」を入力します。
に 'ロット・フロンジ' – '販売年’と入力します連続予測変数。
に 'タイプ' – '販売条件’と入力しますカテゴリ予測変数。
オプションをクリックします。
ノード分割の予測変数の数で、予測変数の総数のKパーセント、K =を選択し、30と入力します。研究者は、この分析にデフォルトの予測変数より大きな値を使用したいと考えています。
各ダイアログボックスのOKをクリックします。

結果を解釈する

この分析では、観測値の数は2930です。300個のブートストラップサンプルの各自が、2930個の観測値を選択して置換し、木を作成します。また、この方法では、予測変数の総数の 30% を使用してノードを分割します。また、応答情報表には、観測値の共通の記述統計量が示されます。

平均	標準偏差	最小	Q1	中央値	Q3	最大
180796	79886.7	12789	129500	160000	213500	755000

合計予測変数	77
重要な予測変数	68

モデル要約表は、R²値が対応するCART®分析のR²値よりもわずかに改善されていることを示しています。