Weitere Einzelheiten zu den Modellvalidierungsmethoden und Komplexitätsparametern finden Sie in Breiman, Friedman, Olshen und Stone (1984)1.
Statistiken zur Zusammenfassung des Modells wie R2 sind tendenziell optimistisch, wenn Sie sie mit den gleichen Daten berechnen, die Sie auch zum Anpassen eines Modells verwenden. Methoden der Modellvalidierung lassen einen Teil der Daten aus dem Modellanpassungsverfahren aus, und anschließend werden Statistiken berechnet, welche die Leistung des Modells für die ausgelassenen Daten bewerten. Modellvalidierungstechniken bieten eine bessere Schätzung der Leistung von Modellen bei neuen Daten. Minitab bietet zwei Validierungsmethoden für Verfahren der prädiktiven Analyse: Kreuzvalidierung mit K Faltungen und Validierung mit einem separaten Testdatensatz.
Die Kreuzvalidierung mit K Faltungen ist die Standardmethode in Minitab, wenn die Daten höchstens 5000 Fälle enthalten. Mit dieser Methode teilt Minitab die Daten in K Teilmengen auf. Die Teilmengen werden Faltungen genannt. Die Kreuzvalidierung mit K Faltungen funktioniert in der Regel gut mit Datensätzen, die im Vergleich zu Datensätzen, die gut mit einem Testdatensatz funktionieren, relativ klein sind. Da das Verfahren K Mal wiederholt wird, ist die Kreuzvalidierung im Allgemeinen langsamer als die Validierung mit einem Testdatensatz.
Um die Kreuzvalidierung mit K Faltungen durchzuführen, erzeugt Minitab 1 + K Sequenzen von Unterbäumen. Eine Sequenz von Unterbäumen, die Mastersequenz, verwendet den gesamten Trainingsdatensatz. Die anderen K Sequenzen sind für die K Faltungen bestimmt. Für jede Faltung verwendet die Sequenz von Unterbäumen (K – 1)/K der Fälle im Trainingsdatensatz.
Jede Sequenz besteht aus einer endlichen Sequenz von geschachtelten Unterbäumen. Jede Faltung hat eine endliche Sequenz von Komplexitätsparametern αd ≤ α ≤ αd + 1, die dem größten Baum und den Unterbäumen in der Sequenz entsprechen. Die Sequenz für den ganzen Datensatz hat die Komplexitätsparameter βd ≤ β ≤ βd + 1, wobei d = 0, 1, ... D, wobei β0 der Parameter für den größten Baum in der Sequenz ist.
Angenommen, für jeden Unterbaum in der Mastersequenz liegen die folgenden Komplexitätsparameter vor: βd und βd + 1. Sei . Dann verwendet Minitab dieses Alpha, um die K entsprechenden Unterbäume aus den K Faltungen zu bestimmen. Für jede Faltung wird das ausgewählte Kriterium für den Unterbaum mit der Formel in Methoden und Formeln für die Zusammenfassung des Modells in CART® Regression berechnet. Der Durchschnitt des Kriteriums über K Faltungen hinweg ist der geschätzte Wert für den Unterbaum in der Mastersequenz. Die Berechnung des Kriteriums wird für jeden Unterbaum in der Mastersequenz wiederholt. Der Unterbaum mit dem minimalen Durchschnittswert ist der optimale Baum.
Bei der Validierung mit einem Testdatensatz wird ein Teil der Daten für die Validierung zurückgelegt. Dieser Teil der Daten ist der Trainingsdatensatz. Zunächst passt Minitab alle Bäume mit dem Trainingsdatensatz an. Anschließend berechnet Minitab entweder das den mittlere quadrierten Fehler oder die absolute Abweichung für den Testdatensatz für jeden Baum. Der Baum mit dem optimalen Wert des Kriteriums für den Testdatensatz ist der optimale Baum.
Ohne Validierung verwendet Minitab den gesamten Datensatz, um die Sequenz der Unterbäume zu erstellen. Der Unterbaum mit den meisten Endknoten weist den geringsten mittleren quadratischen Fehler bzw. die geringste absolute Abweichung auf und stellt den optimalen Baum dar.