Auswahl der optimalen Anzahl der Bäume für die Anpassen des Modells und Ermitteln von wichtigen Prädiktoren mit TreeNet® Regression

Hinweis

Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Die Analyse erstellt die von Ihnen angegebene Anzahl von Bäumen, mit einer kleinen Modifikation am Modell entsprechend den Informationen im jeweiligen Baum. Wenn die Analyse eine Validierungsmethode umfasst, berechnet die Analyse den Wert des Modellauswahlkriteriums für die Trainingsdaten und die Testdaten für jede Anzahl von Bäumen. Der optimale Wert aus dem Testdatensatz bestimmt die Anzahl der Bäume im optimalen Modell.

Methoden der Modellvalidierung

Optimierungskriterien, wie z. B. maximaler R2, sind tendenziell optimistisch, wenn Sie mit denselben Daten berechnet werden, mit denen Sie auch ein Modell anpassen. Methoden der Modellvalidierung lassen einen Teil der Daten aus dem Modellanpassungsverfahren aus, und anschließend werden Statistiken berechnet, welche die Leistung des Modells für die ausgelassenen Daten auswerten. Modellvalidierungstechniken bieten eine bessere Schätzung der Leistung von Modellen bei neuen Daten. Je nach Auswahl der Verlustfunktion für die Analyse ist das Kriterium die maximale R2 oder die geringste mittlere absolute Abweichung (MAD). Minitab bietet zwei Validierungsmethoden: Kreuzvalidierung mit K Faltungen und Validierung mit einem separaten Testdatensatz.

Der optimale Baum mit Kreuzvalidierung mit K Faltungen

Die Kreuzvalidierung mit K Faltungen ist die Standardmethode in Minitab, wenn die Daten 2000 Fälle oder weniger enthalten. Da das Verfahren K Mal wiederholt wird, ist die Kreuzvalidierung im Allgemeinen langsamer als die Validierung mit Testdaten.

Verfahren der Kreuzvalidierung mit K Faltungen

Zum Ausführen der Kreuzvalidierung mit K Faltungen führt die Minitab Statistical Software die folgenden Schritte aus:
  1. Teilen Sie die Daten in K zufällige Teilmengen mit möglichst gleicher Größe auf. Die Teilmengen werden Faltungen genannt.
  2. Für Faltung k, k = 1, ..., K bauen Sie die Sequenzen der Bäume mit den verbleibenden K–1 Faltungen von Daten auf. Berechnen Sie den Wert des Modellauswahlkriteriums für jeden Baum mit den Daten in der k-ten Faltung.
  3. Wiederholen Sie Schritt 2 für alle K Faltungen.
  4. Mitteln Sie die Werte des Modellauswahlkriteriums über K Faltungen für jede Anzahl von Bäumen. Die Anzahl von Bäumen mit dem besten Durchschnittswert ergibt das optimale Modell.

Der optimale Baum mit einem separaten Testdatensatz

Bei der Validierung mit einem Testdatensatz wird ein Teil der Daten für die Validierung reserviert. Die übrigen Daten bilden den Trainingsdatensatz. Zuerst baut Minitab die Sequenz der Bäume mit dem Trainingsdatensatz aus. Anschließend berechnet Minitab die Werte des Modellauswahlkriteriums für jede Anzahl von Bäumen mithilfe des Testdatensatzes. Die Anzahl von Bäumen mit dem besten Wert ergibt das optimale Modell.

Der optimale Baum ohne Validierung

Ohne Validierung verwendet Minitab den gesamten Datensatz, um das Modell anzupassen. Das endgültige Modell enthält die größte Anzahl von Bäumen.