Ein Forscherteam möchte Daten über einen Kreditnehmer und den Ort einer Immobilie nutzen, um den Hypothekenbetrag zu prognostizieren. Variablen sind Einkommen, Ethnie und Geschlecht des Kreditnehmers sowie der Zählbezirk der Immobilie sowie andere Informationen über den Kreditnehmer und den Objekttyp.
Nach einer ersten Untersuchung mit CART®
Regression, um die wichtigsten Prädiktoren zu identifizieren, zieht das Team jetzt TreeNet®
Regression als notwendigen Folgeschritt in Betracht. Die Forscher hoffen, einen tieferen Einblick in die Beziehungen zwischen der Antwortvariablen und den wichtigsten Prädiktoren zu erhalten und neue Beobachtungen mit größerer Genauigkeit prognostizieren zu können.
Diese Daten sind eine Adaption eines öffentlichen Datensatzes, der Informationen zu Hypotheken von Bundesbausparkassen enthält. Die Originaldaten stammen von fhfa.gov.
Wählen Sie Predictive
Analytics-Modul > TreeNet® Regression > Modell anpassen aus.
Geben Sie im Feld Antwort die Spalte Kreditbetrag ein.
Geben Sie im Feld Stetige Prädiktoren die Spalten Jahreseinkommen – Einkommen Bezirk ein.
Geben Sie im Feld Kategoriale Prädiktoren die Spalten Immobilien-Erstkäufer – Statistisches Kerngebiet ein.
Klicken Sie auf Validierung.
Wählen Sie im Feld Validierungsmethode die Option Kreuzvalidierung mit K Faltungen aus.
Geben Sie im Feld Anzahl der
Faltungen (K) den Wert 3 ein.
Klicken Sie in den einzelnen Dialogfeldern auf OK.
Interpretieren der Ergebnisse
Für diese Analyse baut Minitab 300 Bäume auf, und die optimale Anzahl von Bäumen beträgt 300. Da die optimale Anzahl von Bäumen nahe an der maximalen Anzahl von Bäumen liegt, die das Modell aufbaut, wiederholen die Forscher die Analyse mit mehr Bäumen.
Beispiel mit 500 Bäumen
Klicken Sie nach der Tabelle mit der Zusammenfassung des Modells auf Anpassen von Hyperparametern zum Identifizieren
eines besseren Modells.
Geben Sie im Feld Anzahl der
Bäume den Wert 500 ein.
Klicken Sie auf Anzeigen der
Ergebnisse.
Interpretieren der Ergebnisse
Für diese Analyse wurden 500 Bäume aufgebaut und die optimale Anzahl von Bäumen für die Kombination von Hyperparametern mit dem besten Wert des Genauigkeitskriteriums ist 500. Die Fraktion für die Teilstichprobe ändert sich auf 0,7 anstelle der 0,5 in der ursprünglichen Analyse. Die Trainingsrate ändert sich auf 0,0437 anstelle von 0,04372 in der ursprünglichen Analyse.
Untersuchen Sie sowohl die Tabelle mit der Zusammenfassung des Modells als auch das Diagramm von R-Quadrat vs. Anzahl der Bäume. Der R2-Wert bei einer Anzahl von 500 Bäumen beträgt 86,79 % für die Testdaten und 96,41 % für die Trainingsdaten. Diese Ergebnisse zeigen eine Verbesserung gegenüber einer herkömmlichen Regressionsanalyse und einer CART®
Regression.