Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.
Die Analyse erstellt die von Ihnen angegebene Anzahl von Bäumen, mit einer kleinen Modifikation am Modell entsprechend den Informationen im jeweiligen Baum. Wenn die Analyse eine Validierungsmethode umfasst, berechnet die Analyse den Wert des Modellauswahlkriteriums für die Trainingsdaten und die Testdaten für jede Anzahl von Bäumen. Der optimale Wert aus dem Testdatensatz bestimmt die Anzahl der Bäume im optimalen Modell.
Optimierungskriterien, wie z. B. maximaler R2, sind tendenziell optimistisch, wenn Sie mit denselben Daten berechnet werden, mit denen Sie auch ein Modell anpassen. Methoden der Modellvalidierung lassen einen Teil der Daten aus dem Modellanpassungsverfahren aus, und anschließend werden Statistiken berechnet, welche die Leistung des Modells für die ausgelassenen Daten auswerten. Modellvalidierungstechniken bieten eine bessere Schätzung der Leistung von Modellen bei neuen Daten. Je nach Auswahl der Verlustfunktion für die Analyse ist das Kriterium die maximale R2 oder die geringste mittlere absolute Abweichung (MAD). Minitab bietet zwei Validierungsmethoden: Kreuzvalidierung mit K Faltungen und Validierung mit einem separaten Testdatensatz.
Die Kreuzvalidierung mit K Faltungen ist die Standardmethode in Minitab, wenn die Daten 2000 Fälle oder weniger enthalten. Da das Verfahren K Mal wiederholt wird, ist die Kreuzvalidierung im Allgemeinen langsamer als die Validierung mit Testdaten.
Bei der Validierung mit einem Testdatensatz wird ein Teil der Daten für die Validierung reserviert. Die übrigen Daten bilden den Trainingsdatensatz. Zuerst baut Minitab die Sequenz der Bäume mit dem Trainingsdatensatz aus. Anschließend berechnet Minitab die Werte des Modellauswahlkriteriums für jede Anzahl von Bäumen mithilfe des Testdatensatzes. Die Anzahl von Bäumen mit dem besten Wert ergibt das optimale Modell.
Ohne Validierung verwendet Minitab den gesamten Datensatz, um das Modell anzupassen. Das endgültige Modell enthält die größte Anzahl von Bäumen.