Auswahl des optimalen Baums in CART® Klassifizierung

Je nach Auswahl ist der optimale Baum der Baum, der die minimalen Fehlklassifikationskosten liefert, oder der kleinste Baum mit Fehlklassifikationskosten innerhalb eines Vielfachen von Standardfehlern der minimalen Fehlklassifikationskosten. Die Bestimmung des optimalen Baums hängt von der Validierungsmethode ab.

Weitere Informationen zu den Methoden der Modellvalidierung und den Komplexitätsparametern finden Sie bei Breiman, Friedman, Olshen und Stone (1984)1.

Methoden der Modellvalidierung

Statistiken für die Zusammenfassung des Modells, z. B. das R2der Abweichung, sind tendenziell optimistisch, wenn Sie sie mit den gleichen Daten berechnen, die Sie auch zum Anpassen eines Modells verwenden. Methoden der Modellvalidierung lassen einen Teil der Daten aus dem Modellanpassungsverfahren aus, und anschließend werden Statistiken berechnet, welche die Leistung des Modells für die ausgelassenen Daten bewerten. Modellvalidierungstechniken bieten eine bessere Schätzung der Leistung von Modellen bei neuen Daten. Die Fehlklassifikationskosten aus den ausgelassenen Daten sind das Kriterium für die Auswahl des optimalen Baums. Minitab bietet zwei Validierungsmethoden für Verfahren der prädiktiven Analyse: Kreuzvalidierung mit K Faltungen und Validierung mit einem separaten Testdatensatz.

Der optimale Baum mit Kreuzvalidierung mit K Faltungen

Die Kreuzvalidierung mit K Faltungen ist die Standardmethode in Minitab, wenn die Daten 5000 Fälle oder weniger enthalten. Mit dieser Methode teilt Minitab die Daten in K Teilmengen auf. Die Teilmengen werden Faltungen genannt. Die Kreuzvalidierung mit K Faltungen funktioniert in der Regel gut mit Datensätzen, die relativ klein sind, im Vergleich zu Datensätzen, die gut mit einem Testdatensatz funktionieren. Da der Verfahren K Mal wiederholt wird, ist die Kreuzvalidierung im Allgemeinen langsamer als die Validierung mit einem Testdatensatz.

Verfahren der Kreuzvalidierung mit K Faltungen

Um die Kreuzvalidierung mit K Faltungen abzuschließen, erzeugt Minitab 1 + K Sequenzen von Unterbäumen. Eine Sequenz von Unterbäumen, die Mastersequenz, verwendet den gesamten Trainingsdatensatz. Die anderen K Sequenzen sind für die K Faltungen bestimmt. Für jede Faltung verwendet die Sequenz von Unterbäumen (K – 1)/K der Fälle im Trainingsdatensatz.

Jede Sequenz besteht aus einer endlichen Sequenz von geschachtelten Unterbäumen. Jede Faltung weist eine endliche Sequenz von Komplexitätsparametern auf αdααd + 1 die dem größten Baum und den Unterbäumen in der Sequenz entspricht. Die Sequenz für den vollständigen Datensatz hat Komplexitätsparameter βd ββd + 1Dabei gilt Folgendes: d = 0, 1, ... D, wobei gilt: β0 ist der Parameter für den größten Baum in der Sequenz.

Nehmen Sie für jeden Unterbaum in der Mastersequenz die folgenden Komplexitätsparameter an: βd und βd + 1 . Sei . Dann verwendet Minitab dieses Alpha, um die K entsprechenden Unterbäume aus den K Faltungen zu bestimmen. Berechnen Sie für jede Faltung die Fehlklassifikationskosten für den Unterbaum mit der Formel in Methoden und Formeln für die Zusammenfassung des Modells in CART® Klassifizierung. Die durchschnittlichen Fehlklassifikationskosten über K Faltungen hinweg sind die geschätzten Fehlklassifikationskosten für den Unterbaum in der Mastersequenz. Wiederholen Sie die Berechnung der geschätzten Fehlklassifikationskosten für jeden Unterbaum in der Mastersequenz. Bei dem Verfahren wird der Unterbaum mit den minimalen durchschnittlichen Fehlklassifikationskosten ermittelt. Der Baum mit den minimalen Fehlklassifikationskosten oder der kleinste Baum mit Fehlklassifikationskosten innerhalb eines Vielfachen von Standardfehlern der Fehlklassifikationskosten wird zum optimalen Baum in den Ergebnissen.

Der optimale Baum mit einem separaten Testdatensatz

Bei der Validierung mit einem Testdatensatz wird ein Teil der Daten für die Validierung zurückgelegt. Dieser Teil der Daten ist der Trainingsdatensatz. Zunächst passt Minitab alle Bäume mit dem Trainingsdatensatz an. Anschließend berechnet Minitab entweder den mittleren quadratischen Fehler oder die absolute Abweichung für den Testdatensatz für jeden Baum. Der Baum mit dem optimalen Wert des Kriteriums für den Testdatensatz ist der optimale Baum.

Der optimale Baum ohne Validierung

Ohne Validierung verwendet Minitab den gesamten Datensatz, um die Sequenz der Unterbäume zu vergrößern. Der Unterbaum mit den meisten Endknoten hat die minimalen Fehlklassifikationskosten und stellt den optimalen Baum dar.

1 Breiman, Friedman, Olshen und Stone. (1984). Classification and Regression Trees. Boca Raton, Florida: Chapman & Hall/CRC.
Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien