Tabelle mit der Zusammenfassung des Modells für CART® Klassifikation

Hier finden Sie Definitionen und Anleitungen zur Interpretation für die Tabelle mit der Zusammenfassung des Modells.
Hinweis

Minitab zeigt die Ergebnisse sowohl für den Trainings- als auch für den Testdatensatz an. Die Testergebnisse geben an, ob das Modell die Werte der Antwortvariablen für neue Beobachtungen angemessen prognostizieren oder die Beziehungen zwischen der Antwortvariablen und den Prädiktorvariablen adäquat zusammenfassen kann. Die Ergebnisse für die Trainingsdaten sind in der Regel optimaler als für die tatsächlichen Daten und dienen nur zur Referenz.

Klicken Sie auf Alternativbaum auswählen, um ein interaktives Diagramm zu öffnen, das eine Tabelle mit Statistiken zur Zusammenfassung des Modells enthält. Verwenden Sie das Diagramm, um kleinere Bäume mit ähnlicher Leistung zu untersuchen.

In der Regel liefert ein Baum mit weniger Endknoten ein klareres Bild davon, wie sich die einzelnen Prädiktorvariablen auf die Werte der Antwortvariablen auswirken. Ein kleinerer Baum erleichtert auch das Identifizieren einiger Zielgruppen für weitere Untersuchungen. Wenn für einen kleineren Baum der Unterschied hinsichtlich der Prognosegenauigkeit zu vernachlässigen ist, können Sie die Beziehungen zwischen der Antwortvariablen und den Prädiktorvariablen anhand des kleineren Baums auswerten.

Prädiktoren gesamt

Die Gesamtzahl der für den Klassifikationsbaum verfügbaren Prädiktoren. Dies ist die Summe der angegebenen stetigen und kategorialen Prädiktoren.

Wichtige Prädiktoren

Die Anzahl der wichtigen Prädiktoren im Klassifikationsbaum. Wichtige Prädiktoren sind die Variablen, die als primärer oder Surrogat-Teiler verwendet werden.

Interpretation

Mit dem Diagramm „Relative Variablenwichtigkeit“ können Sie die Rangfolge der relativen Variablenwichtigkeit anzeigen. Angenommen, 10 von 20 Prädiktoren sind im Klassifikationsbaum wichtig; im Diagramm „Relative Variablenwichtigkeit“ werden die Variablen in der Reihenfolge ihrer Wichtigkeit angezeigt.

Anzahl der Endknoten

Ein Endknoten ist ein abschließender Knoten, der nicht weiter geteilt werden kann.

Interpretation

Endknoten sind die abschließenden reineren Gruppen, die anhand des Klassifikationsbaums identifiziert werden. Sie können die Endknoteninformationen verwenden, um Prognosen zu erstellen.

Minimale Endknotengröße

Die minimale Endknotengröße ist der Endknoten mit der kleinsten Anzahl von Fällen.

Interpretation

Standardmäßig legt Minitab die minimal zulässige Anzahl der Fälle für einen Endknoten auf drei Fälle fest. Ihr Baum kann jedoch minimale Endknotengrößen aufweisen, die größer als 3 sind. Sie können diesen Schwellenwert auch im Unterdialogfeld Optionen ändern.

Durchschnittliche -LogLikelihood

Bei einer binären Antwortvariablen berechnet Minitab den Durchschnitt der negativen Log-Likelihood-Funktion.

Interpretation

Vergleichen Sie die durchschnittlichen –Log-Likelihood-Werte für Tests aus verschiedenen Modellen, um das am besten passende Modell zu bestimmen. Der niedrigere durchschnittliche –Log-Likelihood-Wert weist auf eine bessere Anpassung hin.

Fläche unterhalb der ROC-Kurve

Die ROC-Kurve zeigt die Richtig-Positiv-Rate (TPR), auch als Trennschärfe bezeichnet, auf der y-Achse. Die ROC-Kurve zeigt die Falsch-Positiv-Rate (FPR), auch als Fehler 1. Art bezeichnet, auf der x-Achse. Die Fläche unter einer ROC-Kurve gibt an, ob der Klassifikationsbaum ein guter Klassifikator ist.

Interpretation

Bei Klassifikationsbäumen kann die Fläche unter der ROC-Kurve Werte von 0,5 bis 1 annehmen. Wenn ein Klassifikationsbaum die Klassen perfekt trennen kann, entspricht die Fläche unter der Kurve 1. Wenn ein Klassifikationsbaum die Klassen nicht besser als eine zufällige Einteilung trennen kann, entspricht die Fläche unter der Kurve 0,5.

Lift

Bei einer binären Antwortvariablen zeigt Minitab den Lift an. Der Lift ist der kumulative Lift für die 10 % der Daten mit der besten Chance auf eine korrekte Klassifikation.

Interpretation

Der Lift stellt das Verhältnis der des Sollwerts der Antwortvariablen dividiert durch die den durchschnittlichen Wert der Antwortvariablen dar. Wenn der Lift größer als 1 ist, weist ein Segment der Daten einen größeren Wert der Antwortvariablen als erwartet auf.

Fehlklassifikationskosten

Die Fehlklassifikationskosten sind die relativen Fehlklassifikationskosten. Die Kosten sind relativ zu einem Baum, der das häufigste Ergebnis für jeden Fall vorhersagt. Die relativen Kosten berücksichtigen die Fehlerrate und die gewichteten Kosten.

Interpretation

Die Fehlklassifikationskosten unter Test stellen die Fehlklassifikationskosten dar, die auf allen Stufen auftreten, wenn Minitab den Baum in den Ergebnissen anstelle eines anderen Baums verwendet, um die Werte der Antwortvariablen für neue Beobachtungen zu prognostizieren. Kleinere Werte weisen darauf hin, dass der Baum in den Ergebnissen besser funktioniert. Werte kleiner als 1 zeigen an, dass das Modell in den Ergebnissen geringere Kosten hat als ein Modell, welches das häufigste Ergebnis für jeden Fall prognostiziert.