Beispiel für Anpassen des Modells für TreeNet® Regression

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Ein Forscherteam möchte Daten über einen Kreditnehmer und den Ort einer Immobilie nutzen, um den Hypothekenbetrag zu prognostizieren. Variablen sind Einkommen, Ethnie und Geschlecht des Kreditnehmers sowie der Zählbezirk der Immobilie sowie andere Informationen über den Kreditnehmer und den Objekttyp.

Nach einer ersten Untersuchung mit CART® Regression, um die wichtigsten Prädiktoren zu identifizieren, zieht das Team jetzt TreeNet® Regression als notwendigen Folgeschritt in Betracht. Die Forscher hoffen, einen tieferen Einblick in die Beziehungen zwischen der Antwortvariablen und den wichtigsten Prädiktoren zu erhalten und neue Beobachtungen mit größerer Genauigkeit prognostizieren zu können.

Diese Daten sind eine Adaption eines öffentlichen Datensatzes, der Informationen zu Hypotheken von Bundesbausparkassen enthält. Die Originaldaten stammen von fhfa.gov.

  1. Öffnen Sie den Beispieldatensatz GekaufteHypotheken.MTW.
  2. Wählen Sie Predictive Analytics-Modul > TreeNet® Regression > Modell anpassen aus.
  3. Geben Sie im Feld Antwort die Spalte Kreditbetrag ein.
  4. Geben Sie im Feld Stetige Prädiktoren die Spalten JahreseinkommenEinkommen Bezirk ein.
  5. Geben Sie im Feld Kategoriale Prädiktoren die Spalten Immobilien-ErstkäuferStatistisches Kerngebiet ein.
  6. Klicken Sie auf Validierung.
  7. Wählen Sie im Feld Validierungsmethode die Option Kreuzvalidierung mit K Faltungen aus.
  8. Geben Sie im Feld Anzahl der Faltungen (K) den Wert 3 ein.
  9. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Für diese Analyse baut Minitab 300 Bäume auf, und die optimale Anzahl von Bäumen beträgt 300. Da die optimale Anzahl von Bäumen nahe an der maximalen Anzahl von Bäumen liegt, die das Modell aufbaut, wiederholen die Forscher die Analyse mit mehr Bäumen.

TreeNet®-Regression: Kreditbetrag vs Jahreseinkom; Einkommensqu; Front-End-Ve; ...

Zusammenfassung des Modells Prädiktoren gesamt 34 Wichtige Prädiktoren 19 Anzahl der aufgebauten Bäume 300 Optimale Anzahl von Bäumen 300 Statistiken Schulungen Test R-Quadrat 94,02% 84,97% Wurzel des mittleren quadrierten Fehlers (RMSE) 32334,5587 51227,9431 Mittlerer quadrierter Fehler (MSE) 1045523683,1610 2624302154,9887 Mittlere abs. Abweichung (MAD) 22740,1020 35974,9695 Mittlerer absoluter prozentualer Fehler (MAPE) 0,1238 0,1969

Beispiel mit 500 Bäumen

  1. Klicken Sie nach der Tabelle mit der Zusammenfassung des Modells auf Anpassen von Hyperparametern zum Identifizieren eines besseren Modells.
  2. Geben Sie im Feld Anzahl der Bäume den Wert 500 ein.
  3. Klicken Sie auf Anzeigen der Ergebnisse.

Interpretieren der Ergebnisse

Für diese Analyse wurden 500 Bäume aufgebaut und die optimale Anzahl von Bäumen für die Kombination von Hyperparametern mit dem besten Wert des Genauigkeitskriteriums ist 500. Die Fraktion für die Teilstichprobe ändert sich auf 0,7 anstelle der 0,5 in der ursprünglichen Analyse. Die Trainingsrate ändert sich auf 0,0437 anstelle von 0,04372 in der ursprünglichen Analyse.

Untersuchen Sie sowohl die Tabelle mit der Zusammenfassung des Modells als auch das Diagramm von R-Quadrat vs. Anzahl der Bäume. Der R2-Wert bei einer Baumanzahl von 500 liegt bei 86,79 % für die Testdaten und bei 96,41 % für die Trainingsdaten. Diese Ergebnisse zeigen eine Verbesserung gegenüber einer herkömmlichen Regressionsanalyse und einer CART® Regression.

TreeNet®-Regression: Kreditbetrag vs Jahreseinkom; Einkommensqu; ...

Methode Verlustfunktion Quadrierter Fehler Kriterium für Auswahl der optimalen Anzahl von Bäumen Maximales R-Quadrat Modellvalidierung Kreuzvalidierung mit 3 Faltungen Trainingsrate 0,04372 Teilstichbruchfraktionschefin 0,5 Maximale Anzahl von Endknoten pro Baum 6 Minimale Endknotengröße 3 Anzahl der für die Knotenteilung ausgewählten Prädiktoren Gesamtanzahl der Prädiktoren = 34 Verwendete Zeilen 4372
Informationen zur Antwortvariablen Mittelwert StdAbw Minimum Q1 Median Q3 Maximum 235217 132193 23800 136000 208293 300716 1190000

TreeNet®-Regression mit Hyperparameteranpassung: Kreditbetrag vs. Jahreseinkom; Einkommensqu; ...

Methode Verlustfunktion Quadrierter Fehler Kriterium für Auswahl der optimalen Anzahl von Bäumen Maximales R-Quadrat Modellvalidierung Kreuzvalidierung mit 3 Faltungen Trainingsrate 0,001; 0,0437; 0,1 Teilstichbruchfraktionschefin 0,5; 0,7 Maximale Anzahl von Endknoten pro Baum 6 Minimale Endknotengröße 3 Anzahl der für die Knotenteilung ausgewählten Prädiktoren Gesamtanzahl der Prädiktoren = 34 Verwendete Zeilen 4372
Informationen zur Antwortvariablen Mittelwert StdAbw Minimum Q1 Median Q3 Maximum 235217 132193 23800 136000 208293 300716 1190000
Optimierung der Hyperparameter Test Optimale Mittlere Anzahl von R-Quadrat absolute Modell Bäumen (%) Abweichung Trainingsrate 1 500 36,43 82617,1 0,0010 2 495 85,87 34560,5 0,0437 3 495 85,63 34889,3 0,1000 4 500 36,86 82145,0 0,0010 5* 500 86,79 33052,6 0,0437 6 451 86,67 33262,3 0,1000 Maximale Anzahl von Modell Teilstichbruchfraktionschefin Endknoten 1 0,5 6 2 0,5 6 3 0,5 6 4 0,7 6 5* 0,7 6 6 0,7 6 * Das optimale Modell weist das maximale R-Quadrat auf. Die Ausgabe für das optimale Modell folgt.

TreeNet® Regression: Loan Amount vs Annual Incom, Income Ratio, ...

Model Summary Total predictors 34 Important predictors 24 Number of trees grown 500 Optimal number of trees 500 Statistics Training Test R-squared 96.41% 86.79% Root mean squared error (RMSE) 25035.7243 48029.9503 Mean squared error (MSE) 626787491.1374 2306876123.1055 Mean absolute deviation (MAD) 17309.3936 33052.6087 Mean absolute percent error (MAPE) 0.0930 0.1790

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „Statistisches Kerngebiet“. Wenn die Wichtigkeit der obersten Prädiktorvariablen, „Statistisches Kerngebiet“, 100 % beträgt, hat die nächstwichtigste Variable, „Jahreseinkommen“, einen Beitrag von 92,8%. Das heißt, das Jahreseinkommen des Kreditnehmers ist 92,8% so wichtig wie die geografische Lage der Immobilie.

Das Streudiagramm der angepassten Kreditbeträge im Vergleich zu den tatsächlichen Kreditbeträgen zeigt die Beziehung zwischen den angepassten und tatsächlichen Werten sowohl für die Trainingsdaten als auch für die Testdaten. Sie können mit dem Mauszeiger auf die Punkte im Diagramm zeigen, um die dargestellten Werte leichter sehen zu können. In diesem Beispiel fallen alle Punkte ungefähr in die Nähe der Referenzlinie von y=x.

Das erste Diagramm veranschaulicht den angepassten Kreditbetrag für jedes statistische Kerngebiet. Da es so viele Datenpunkte gibt, können Sie mit dem den Cursor auf die einzelnen Datenpunkten zeigen, um die betreffenden x- und y-Werte zu sehen. Der höchste Punkt auf der rechten Seite der Grafik steht für Kerngebiet Nummer 41860, und der angepasste Kreditbetrag liegt bei rund 378.069$.

Das zweite Diagramm zeigt, dass der angepasste Kreditbetrag mit der Höhe des Jahreseinkommens steigt. Nachdem das Jahreseinkommen 300.000 $ erreicht hat, steigt der angepasste Kreditbetrag langsamer an.

Das dritte Diagramm zeigt, dass der angepasste Kreditbetrag steigt, wenn das Front-End-Verhältnis steigt.

Das vierte Diagramm veranschaulicht den angepassten Kreditbetrag für jeden Landkreiskode der Volkszählung. Wie beim ersten Diagramm können Sie mit dem Cursor auf bestimmte Datenpunkte zeigen, um mehr Informationen zu erhalten. Klicken Sie auf Auswählen weiterer Prädiktoren zur Darstellung, um Diagramme für andere Variablen zu erstellen.

Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien