Weitere Einzelheiten zu den Modellvalidierungsmethoden und Komplexitätsparametern finden Sie in Breiman, Friedman, Olshen und Stone (1984)1.
Statistiken zur Zusammenfassung des Modells wie die Fläche unter der R2-Kurve sind tendenziell optimistisch, wenn Sie sie mit den gleichen Daten berechnen, die Sie auch zum Anpassen eines Modells verwenden. Methoden der Modellvalidierung lassen einen Teil der Daten aus dem Modellanpassungsverfahren aus, und anschließend werden Statistiken berechnet, welche die Leistung des Modells für die ausgelassenen Daten bewerten. Modellvalidierungstechniken bieten eine bessere Schätzung der Leistung von Modellen bei neuen Daten. Die Fehlklassifikationskosten aus den ausgelassenen Daten sind das Kriterium für die Auswahl des optimalen Baums. Minitab bietet zwei Validierungsmethoden für Verfahren der prädiktiven Analyse: Kreuzvalidierung mit K Faltungen und Validierung mit einem separaten Testdatensatz.
Die Kreuzvalidierung mit K Faltungen ist die Standardmethode in Minitab, wenn die Daten 5000 Fälle oder weniger enthalten. Mit dieser Methode teilt Minitab die Daten in K Teilmengen auf. Die Teilmengen werden Faltungen genannt. Die Kreuzvalidierung mit K Faltungen funktioniert in der Regel gut mit Datensätzen, die im Vergleich zu Datensätzen, die gut mit einem Testdatensatz funktionieren, relativ klein sind. Da das Verfahren K Mal wiederholt wird, ist die Kreuzvalidierung im Allgemeinen langsamer als die Validierung mit einem Testdatensatz.
Um die Kreuzvalidierung mit K Faltungen durchzuführen, erzeugt Minitab 1 + K Sequenzen von Unterbäumen. Eine Sequenz von Unterbäumen, die Mastersequenz, verwendet den gesamten Trainingsdatensatz. Die anderen K Sequenzen sind für die K Faltungen bestimmt. Für jede Faltung verwendet die Sequenz von Unterbäumen (K – 1)/K der Fälle im Trainingsdatensatz.
Jede Sequenz besteht aus einer endlichen Sequenz von geschachtelten Unterbäumen. Jede Faltung hat eine endliche Sequenz von Komplexitätsparametern αd ≤ α ≤ αd + 1, die dem größten Baum und den Unterbäumen in der Sequenz entsprechen. Die Sequenz für den ganzen Datensatz hat die Komplexitätsparameter βd ≤ β ≤ βd + 1, wobei d = 0, 1, ... D, wobei β0 der Parameter für den größten Baum in der Sequenz ist.
Angenommen, für jeden Unterbaum in der Mastersequenz liegen die folgenden Komplexitätsparameter vor: βd und βd + 1. Sei . Dann verwendet Minitab dieses Alpha, um die K entsprechenden Unterbäume aus den K Faltungen zu bestimmen. Für jede Faltung werden die Fehlklassifikationskosten für den Unterbaum mit der Formel in Methoden und Formeln für die Zusammenfassung des Modells in CART® Klassifikation berechnet. Die durchschnittlichen Fehlklassifikationskosten über K Faltungen hinweg sind die geschätzten Fehlklassifikationskosten für den Unterbaum in der Mastersequenz. Wiederholen Sie die Berechnung der geschätzten Fehlklassifikationskosten für jeden Unterbaum in der Mastersequenz. Bei dem Verfahren wird der Unterbaum mit den minimalen durchschnittlichen Fehlklassifikationskosten ermittelt. Der Baum mit den minimalen Fehlklassifikationskosten oder der kleinste Baum mit Fehlklassifikationskosten innerhalb eines Vielfachen von Standardfehlern der Fehlklassifikationskosten wird zum optimalen Baum in den Ergebnissen.
Bei der Validierung mit einem Testdatensatz wird ein Teil der Daten für die Validierung zurückgelegt. Dieser Teil der Daten ist der Trainingsdatensatz. Zunächst passt Minitab alle Bäume mit dem Trainingsdatensatz an. Anschließend berechnet Minitab entweder das den mittlere quadrierten Fehler oder die absolute Abweichung für den Testdatensatz für jeden Baum. Der Baum mit dem optimalen Wert des Kriteriums für den Testdatensatz ist der optimale Baum.
Ohne Validierung verwendet Minitab den gesamten Datensatz, um die Sequenz der Unterbäume zu erstellen. Der Unterbaum mit den meisten Endknoten hat die minimalen Fehlklassifikationskosten und stellt den optimalen Baum dar.