Beispiel für Anpassen des Modells for TreeNet® Regression

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Ein Forscherteam möchte Daten über einen Kreditnehmer und den Ort einer Immobilie nutzen, um den Hypothekenbetrag zu prognostizieren. Variablen sind Einkommen, Ethnie und Geschlecht des Kreditnehmers sowie der Zählbezirk der Immobilie sowie andere Informationen über den Kreditnehmer und den Objekttyp.

Nach einer ersten Erkundung CART® Regression zur Identifizierung der wichtigen Prädiktoren betrachtet TreeNet® Regression das Team nun einen notwendigen Folgeschritt. Die Forscher hoffen, einen tieferen Einblick in die Beziehungen zwischen der Antwortvariablen und den wichtigsten Prädiktoren zu erhalten und neue Beobachtungen mit größerer Genauigkeit prognostizieren zu können.

Diese Daten sind eine Adaption eines öffentlichen Datensatzes, der Informationen zu Hypotheken von Bundesbausparkassen enthält. Die Originaldaten stammen von fhfa.gov.

  1. Öffnen Sie den Beispieldatensatz GekaufteHypotheken.MTW.
  2. Wählen Sie Predictive Analytics-Modul > TreeNet® Regression > Modell anpassen aus.
  3. Geben Sie im Feld Antwort den Wert Kreditbetrag ein.
  4. Geben Sie Jahreseinkommen-Einkommen Bezirk in Stetige Prädiktoren.
  5. Geben Sie Immobilien-ErstkäuferStatistisches Kerngebiet in Kategoriale Prädiktoren.
  6. Klicken Sie auf Validierung.
  7. Wählen Sie im Feld Validierungsmethode die Option Kreuzvalidierung mit K Faltungen aus.
  8. Geben Sie im Feld Anzahl der Faltungen (K) den Wert 3 ein.
  9. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Für diese Analyse baut Minitab 300 Bäume auf, und die optimale Anzahl von Bäumen beträgt 300. Da die optimale Anzahl von Bäumen nahe an der maximalen Anzahl von Bäumen liegt, die das Modell aufbaut, wiederholen die Forscher die Analyse mit mehr Bäumen.

Zusammenfassung des Modells

Prädiktoren gesamt34
Wichtige Prädiktoren19
Anzahl der aufgebauten Bäume300
Optimale Anzahl von Bäumen300
StatistikenTrainingsTest
R-Quadrat94,02%84,97%
Wurzel des mittleren quadrierten Fehlers (RMSE)32334,558751227,9431
Mittlerer quadrierter Fehler (MSE)1,04552E+092,62430E+09
Mittlere abs. Abweichung (MAD)22740,102035974,9695
Mittlerer absoluter prozentualer Fehler (MAPE)0,12380,1969

Beispiel mit 500 Bäumen

  1. Wählen Sie in den Ergebnissen aus Optimieren von Hyperparametern.
  2. Geben Sie im Feld Anzahl der Bäume den Wert 500 ein.
  3. Klicken Sie auf Anzeigen der Ergebnisse.

Interpretieren der Ergebnisse

Für diese Analyse wurden 500 Bäume aufgebaut und die optimale Anzahl von Bäumen für die Kombination von Hyperparametern mit dem besten Wert des Genauigkeitskriteriums ist 500. Die Fraktion für die Teilstichprobe ändert sich auf 0,7 anstelle der 0,5 in der ursprünglichen Analyse. Die Trainingsrate ändert sich auf 0,0437 anstelle von 0,04372 in der ursprünglichen Analyse.

Untersuchen Sie sowohl die Tabelle mit der Zusammenfassung des Modells als auch das Diagramm von R-Quadrat vs. Anzahl der Bäume. Der R2-Wert bei einer Anzahl von 500 Bäumen beträgt 86,79 % für die Testdaten und 96,41 % für die Trainingsdaten. Diese Ergebnisse zeigen eine Verbesserung gegenüber einer herkömmlichen Regressionsanalyse und einer CART® Regression.

Methode

VerlustfunktionQuadrierter Fehler
Kriterium für Auswahl der optimalen Anzahl von BäumenMaximales R-Quadrat
ModellvalidierungKreuzvalidierung mit 3 Faltungen
Trainingsrate0,04372
Teilstichprobenfraktion0,5
Maximale Anzahl von Endknoten pro Baum6
Minimale Endknotengröße3
Anzahl der für die Knotenteilung ausgewählten PrädiktorenGesamtanzahl der Prädiktoren = 34
Verwendete Zeilen4372

Informationen zur Antwortvariablen

MittelwertStdAbwMinimumQ1MedianQ3Maximum
235217132193238001360002082933007161190000
TreeNet®-Regression mit Hyperparameteranpassung: Kreditbetrag vs. Jahreseinkommen; Einkommensquote; Front-End-Verhältnis; Back-End-Verhältnis; Anzahl Kreditnehmer; Alter; Alter Mit-Kreditnehmer; Prozent Minderheiten im Zählbez; Einkommen Zählbezirk; Lokales Einkommen; Einkommen Bezirk; Immobilien-Erstkäufer; Belegungskode; Selbstständig; Ethnie 4 Mit-Kreditnehmer; Ethnie 5 Mit-Kreditnehmer; Kreditzweck; Geschlecht; Anzahl Einheiten; Ethnizität; Ethnie 3 Mit-Kreditnehmer; Geschlecht Mit-Kreditnehmer; Ethnie 2; Ethnie Mit-Kreditnehmer; Bonitätsnote; Bonitätsnote Mit-Kreditnehmer; Ethnie; Ethnie 2 Mit-Kreditnehmer; Ethnie 1 Mit-Kreditnehmer; Objekttyp; Bundesbezirk; Bundesstaat-Kode; Landkreiskode; Statistisches Kerngebiet

Methode

VerlustfunktionQuadrierter Fehler
Kriterium für Auswahl der optimalen Anzahl von BäumenMaximales R-Quadrat
ModellvalidierungKreuzvalidierung mit 3 Faltungen
Trainingsrate0,001; 0,0437; 0,1
Teilstichprobenfraktion0,5; 0,7
Maximale Anzahl von Endknoten pro Baum6
Minimale Endknotengröße3
Anzahl der für die Knotenteilung ausgewählten PrädiktorenGesamtanzahl der Prädiktoren = 34
Verwendete Zeilen4372

Informationen zur Antwortvariablen

MittelwertStdAbwMinimumQ1MedianQ3Maximum
235217132193238001360002082933007161190000

Optimierung der Hyperparameter

Test
ModellOptimale
Anzahl von
Bäumen
R-Quadrat
(%)
Mittlere
absolute
Abweichung
TrainingsrateTeilstichprobenfraktionMaximale
Anzahl von
Endknoten
150036,4382617,10,00100,56
249585,8734560,50,04370,56
349585,6334889,30,10000,56
450036,8682145,00,00100,76
5*50086,7933052,60,04370,76
645186,6733262,30,10000,76
* Das optimale Modell weist das maximale R-Quadrat auf. Die Ausgabe für das optimale Modell
     folgt.

Zusammenfassung des Modells

Prädiktoren gesamt34
Wichtige Prädiktoren24
Anzahl der aufgebauten Bäume500
Optimale Anzahl von Bäumen500
StatistikenTrainingsTest
R-Quadrat96,41%86,79%
Wurzel des mittleren quadrierten Fehlers (RMSE)25035,724348029,9503
Mittlerer quadrierter Fehler (MSE)6,26787E+082,30688E+09
Mittlere abs. Abweichung (MAD)17309,393633052,6087
Mittlerer absoluter prozentualer Fehler (MAPE)0,09300,1790

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „Statistisches Kerngebiet“. Wenn die Wichtigkeit der obersten Prädiktorvariablen, „Statistisches Kerngebiet“, 100 % beträgt, hat die nächstwichtigste Variable, „Jahreseinkommen“, einen Beitrag von 92,8%. Dies bedeutet, dass das Jahreseinkommen des Kreditnehmers zu 92,8% so wichtig ist wie die geografische Lage der Immobilie.

Das Streudiagramm der angepassten Kreditbeträge im Vergleich zu den tatsächlichen Kreditbeträgen zeigt die Beziehung zwischen den angepassten und tatsächlichen Werten sowohl für die Trainingsdaten als auch für die Testdaten. Sie können mit dem Mauszeiger auf die Punkte im Diagramm zeigen, um die dargestellten Werte leichter sehen zu können. In diesem Beispiel fallen alle Punkte ungefähr in die Nähe der Referenzlinie von y=x.

Verwenden Sie die partiellen Abhängigkeitsdiagramme, um einen Einblick in die Auswirkungen der wichtigen Variablen oder Variablenpaare auf die angepassten Antwortwerte zu erhalten. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Das erste Diagramm veranschaulicht den angepassten Kreditbetrag für jedes statistische Kerngebiet. Da es so viele Datenpunkte gibt, können Sie mit dem den Cursor auf die einzelnen Datenpunkten zeigen, um die betreffenden x- und y-Werte zu sehen. Der höchste Punkt auf der rechten Seite der Grafik steht für Kerngebiet Nummer 41860, und der angepasste Kreditbetrag liegt bei rund 378069$.

Das zweite Diagramm zeigt, dass der angepasste Kreditbetrag mit der Höhe des Jahreseinkommens steigt. Nachdem das Jahreseinkommen 300.000 $ erreicht hat, steigt der angepasste Kreditbetrag langsamer an.

Das dritte Diagramm zeigt, dass der angepasste Kreditbetrag steigt, wenn das Front-End-Verhältnis steigt.

Das vierte Diagramm veranschaulicht den angepassten Kreditbetrag für jeden Landkreiskode der Volkszählung. Wie beim ersten Diagramm können Sie mit dem Cursor auf bestimmte Datenpunkte zeigen, um mehr Informationen zu erhalten. Wählen Sie Diagramme bei einem Prädiktor oder Diagramme bei zwei Prädiktoren aus, um Diagramme für andere Variablen zu erstellen.