Auswahl des optimalen Baums in CART^® Regression

Sie können angeben, dass der optimale Baum der Baum mit dem geringsten quadrierten Fehler oder der Baum mit der geringsten absoluten Abweichung ist. Die Bestimmung des Baums mit dem besten Wert des ausgewählten Kriteriums hängt von der Validierungsmethode ab.

In diesem Thema

Methoden der Modellvalidierung
Der optimale Baum mit Kreuzvalidierung mit K Faltungen
Der optimale Baum mit einem separaten Testdatensatz
Der optimale Baum ohne Validierung

Weitere Einzelheiten zu den Modellvalidierungsmethoden und Komplexitätsparametern finden Sie in Breiman, Friedman, Olshen und Stone (1984)¹.

Methoden der Modellvalidierung

Statistiken zur Zusammenfassung des Modells wie R² sind tendenziell optimistisch, wenn Sie sie mit den gleichen Daten berechnen, die Sie auch zum Anpassen eines Modells verwenden. Methoden der Modellvalidierung lassen einen Teil der Daten aus dem Modellanpassungsverfahren aus, und anschließend werden Statistiken berechnet, welche die Leistung des Modells für die ausgelassenen Daten bewerten. Modellvalidierungstechniken bieten eine bessere Schätzung der Leistung von Modellen bei neuen Daten. Minitab bietet zwei Validierungsmethoden für Verfahren der prädiktiven Analyse: Kreuzvalidierung mit K Faltungen und Validierung mit einem separaten Testdatensatz.

Der optimale Baum mit Kreuzvalidierung mit K Faltungen

Die Kreuzvalidierung mit K Faltungen ist die Standardmethode in Minitab, wenn die Daten höchstens 5000 Fälle enthalten. Mit dieser Methode teilt Minitab die Daten in K Teilmengen auf. Die Teilmengen werden Faltungen genannt. Die Kreuzvalidierung mit K Faltungen funktioniert in der Regel gut mit Datensätzen, die im Vergleich zu Datensätzen, die gut mit einem Testdatensatz funktionieren, relativ klein sind. Da das Verfahren K Mal wiederholt wird, ist die Kreuzvalidierung im Allgemeinen langsamer als die Validierung mit einem Testdatensatz.

Verfahren der Kreuzvalidierung mit K Faltungen

Um die Kreuzvalidierung mit K Faltungen durchzuführen, erzeugt Minitab 1 + K Sequenzen von Unterbäumen. Eine Sequenz von Unterbäumen, die Mastersequenz, verwendet den gesamten Trainingsdatensatz. Die anderen K Sequenzen sind für die K Faltungen bestimmt. Für jede Faltung verwendet die Sequenz von Unterbäumen (K – 1)/K der Fälle im Trainingsdatensatz.

Jede Sequenz besteht aus einer endlichen Sequenz von geschachtelten Unterbäumen. Jede Faltung hat eine endliche Sequenz von Komplexitätsparametern α_d ≤ α ≤ α_{d + 1}, die dem größten Baum und den Unterbäumen in der Sequenz entsprechen. Die Sequenz für den ganzen Datensatz hat die Komplexitätsparameter β_d ≤ β ≤ β_{d + 1}, wobei d = 0, 1, ... D, wobei β₀ der Parameter für den größten Baum in der Sequenz ist.

Angenommen, für jeden Unterbaum in der Mastersequenz liegen die folgenden Komplexitätsparameter vor: β_d und β_{d + 1}. Sei . Dann verwendet Minitab dieses Alpha, um die K entsprechenden Unterbäume aus den K Faltungen zu bestimmen. Für jede Faltung wird das ausgewählte Kriterium für den Unterbaum mit der Formel in Methoden und Formeln für die Zusammenfassung des Modells in CART® Regression berechnet. Der Durchschnitt des Kriteriums über K Faltungen hinweg ist der geschätzte Wert für den Unterbaum in der Mastersequenz. Die Berechnung des Kriteriums wird für jeden Unterbaum in der Mastersequenz wiederholt. Der Unterbaum mit dem minimalen Durchschnittswert ist der optimale Baum.

Der optimale Baum mit einem separaten Testdatensatz

Bei der Validierung mit einem Testdatensatz wird ein Teil der Daten für die Validierung zurückgelegt. Dieser Teil der Daten ist der Trainingsdatensatz. Zunächst passt Minitab alle Bäume mit dem Trainingsdatensatz an. Anschließend berechnet Minitab entweder das den mittlere quadrierten Fehler oder die absolute Abweichung für den Testdatensatz für jeden Baum. Der Baum mit dem optimalen Wert des Kriteriums für den Testdatensatz ist der optimale Baum.

Der optimale Baum ohne Validierung

Ohne Validierung verwendet Minitab den gesamten Datensatz, um die Sequenz der Unterbäume zu erstellen. Der Unterbaum mit den meisten Endknoten weist den geringsten mittleren quadratischen Fehler bzw. die geringste absolute Abweichung auf und stellt den optimalen Baum dar.

¹ Breiman, Friedman, Olshen und Stone. (1984). Classification and Regression Trees. Boca Raton, Florida: Chapman & Hall/CRC.