Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.
Die Analyse erstellt die von Ihnen angegebene Anzahl von Bäumen, mit einer kleinen Modifikation am Modell entsprechend den Informationen im jeweiligen Baum. Wenn die Analyse eine Validierungsmethode umfasst, berechnet die Analyse den Wert des Modellauswahlkriteriums für die Trainingsdaten und die Testdaten für jede Anzahl von Bäumen. Der optimale Wert aus dem Testdatensatz bestimmt die Anzahl der Bäume im optimalen Modell.
Optimierungskriterien, wie z. B. maximale Log-Likelihood, sind tendenziell optimistisch, wenn Sie mit denselben Daten berechnet werden, mit denen Sie auch ein Modell anpassen. Methoden der Modellvalidierung lassen einen Teil der Daten aus dem Modellanpassungsverfahren aus, und anschließend werden Statistiken berechnet, welche die Leistung des Modells für die ausgelassenen Daten auswerten. Modellvalidierungstechniken bieten eine bessere Schätzung der Leistung von Modellen bei neuen Daten. Je nach Ihrer Auswahl für die Analyse ist das Kriterium die maximale Log-Likelihood, die maximale Fläche unter der ROC-Kurve oder die minimale Fehlklassifizierungsrate. Minitab bietet zwei Validierungsmethoden: Kreuzvalidierung mit K Faltungen und Validierung mit einem separaten Testdatensatz.
Die Kreuzvalidierung mit K Faltungen ist die Standardmethode in Minitab, wenn die Daten 2000 Fälle oder weniger enthalten. Da das Verfahren K Mal wiederholt wird, ist die Kreuzvalidierung im Allgemeinen langsamer als die Validierung mit einem Testdatensatz.
Bei der Validierung mit einem Testdatensatz wird ein Teil der Daten für die Validierung reserviert. Die übrigen Daten bilden den Trainingsdatensatz. Zuerst baut Minitab die Sequenz der Bäume mit dem Trainingsdatensatz aus. Anschließend berechnet Minitab die Werte des Modellauswahlkriteriums für jede Anzahl von Bäumen mithilfe des Testdatensatzes. Die Anzahl von Bäumen mit dem besten Wert ergibt das optimale Modell.
Ohne Validierung verwendet Minitab den gesamten Datensatz, um das Modell anzupassen. Das endgültige Modell enthält die größte Anzahl von Bäumen.