Beispiel für Random Forests® Regression

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Ein Forscherteam sammelt Daten aus dem Verkauf einzelner Wohnimmobilien in Ames im US-Bundesstaat Iowa. Die Forscher wollen die Variablen identifizieren, die den Verkaufspreis beeinflussen. Zu den Variablen gehören die Grundstücksgröße und verschiedene Merkmale der Wohnimmobilie.

Nach der ersten Untersuchung mit CART® Regression zur Identifizierung der wichtigen Prädiktoren verwendet das Team Random Forests® Regression, um ein intensiveres Modell aus demselben Datensatz zu erstellen. Das Team vergleicht die Tabelle mit der Zusammenfassung des Modells und das R2-Diagramm aus den Ergebnissen, um zu bewerten, welches Modell ein besseres Prognoseergebnis liefert.

Diese Daten sind eine Adaption eines öffentlichen Datensatzes, der Informationen zur Wohnsituation in Ames enthält. Originaldaten von DeCock, Truman State University.

  1. Öffnen Sie die Beispieldaten Ames_Gehause.MTW.
  2. Wählen Sie Predictive Analytics-Modul > Random Forests® Regression aus.
  3. Geben Sie im Feld Antwort die Spalte 'Verkaufspreis' ein.
  4. Geben Sie in Stetige Prädiktoren'Losfront' – ''Jahr verkauftein.
  5. Geben Sie in Kategoriale Prädiktoren'Typ' – ''Verkaufsbedingungein.
  6. Klicken Sie auf Optionen.
  7. Wählen Sie unter Anzahl der Prädiktoren für die KnotenteilungK Prozent der Gesamtzahl der Prädiktoren; K =“ und geben Sie 30 ein. Die Forscher möchten für diese Analyse mehr als die Standardanzahl von Prädiktoren verwenden.
  8. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Für diese Analyse beträgt die Anzahl der Beobachtungen 2930. Jede der 300 Bootstrap-Stichproben wählt nach dem Zufallsprinzip 2930 Beobachtungen mit Ersatz aus, um einen Baum zu erstellen. Die Methode verwendet auch 30% der Gesamtzahl der Prädiktoren, um Knoten aufzuteilen. Außerdem zeigt die Tabelle mit Informationen zur Antwortvariablen allgemeine beschreibende Statistiken für die Beobachtungen.

Random Forests® Regression: Sale Price vs Lot Frontage, Lot Area, ...

Method Model validation Validation with out-of-bag data Number of bootstrap samples 300 Sample size Same as training data size of 2930 Number of predictors selected for node splitting 30% of the total number of predictors = 23 Minimum internal node size 5 Rows used 2930
Response Information Mean StDev Minimum Q1 Median Q3 Maximum 180796 79886.7 12789 129500 160000 213500 755000

Das Diagramm von R-Quadrat vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Der R2-Wert steigt mit zunehmender Anzahl der Bäume schnell an und flacht dann um etwa 91% ab.

Random Forests® Regression: Sale Price vs Lot Frontage, Lot Area, ...

Model Summary Total predictors 77 Important predictors 68 Statistics Out-of-Bag R-squared 90.90% Root mean squared error (RMSE) 24097.3281 Mean squared error (MSE) 580681222.4890 Mean absolute deviation (MAD) 14746.8323 Mean absolute percent error (MAPE) 0.0895

Die Tabelle mit der Zusammenfassung des Modells zeigt, dass dieR2-Werte gegenüber den R2-Werten der entsprechenden CART®-Analyse leicht verbessert sind.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable für die Prognose des Verkaufspreises ist „Qualität“. Wenn die Wichtigkeit der obersten Prädiktorvariablen, Qualität, 100% beträgt, dann hat die nächste wichtige Variable, Living Area SF, einen Beitrag von 88,8%. Dies bedeutet, dass die Quadratmeterzahl des Wohnzimmers 88,8% so wichtig ist wie die Gesamtqualität der Immobilie. Die zweitwichtigste Variable ist die Nachbarschaft mit einem Beitrag von 52,6%.

Das Streudiagramm der angepassten Verkaufspreise gegenüber den tatsächlichen Verkaufspreisen zeigt die Beziehung zwischen den angepassten und tatsächlichen Werten für die Daten von außerhalb des Segments. Sie können mit dem Mauszeiger auf die Punkte im Diagramm zeigen, um die dargestellten Werte leichter sehen zu können. In diesem Beispiel fallen viele Punkte ungefähr in die Nähe der Referenzlinie von y=x, aber einige Punkte müssen möglicherweise untersucht werden, um Diskrepanzen zwischen angepassten und tatsächlichen Werten zu sehen.