Effektivität der Klassifikation für die besten und schlechtesten Endknoten für CART® Klassifikation

Verwenden Sie die Effektivität der Klassifikation, um Knoten von Interesse anhand ihrer Leistung zu charakterisieren.

Minitab zeigt eine Tabelle für jede Stufe der Antwortvariablen an. Jede Zeile der Tabelle enthält eine Zusammenfassung für einen Knoten. Sowohl für binäre Fälle als auch für multinomiale Fälle sortiert Minitab die Klassenwahrscheinlichkeiten mit dem Ausdruck Abs(Ereigniswahrscheinlichkeit – 0,5). Je höher der Wert, desto besser ist der Endknoten. Die besten Knoten sind vom besten zum schlechtesten sortiert. Die schlechtesten Knoten sind vom schlechtesten zum besten sortiert.

Sind bei der Verwendung der Klassenwahrscheinlichkeiten Bindungen vorhanden, verwendet Minitab % von N als zweites Sortierkriterium. Der Endknoten mit dem höchsten % von N wird zuerst aufgeführt. Wenn es nach dieser Sortierung weiterhin Bindungen gibt, zeigt Minitab bei den Kriterien „Bester“, „Schlechtester“ und „Bester und schlechtester“ den kleinsten Endknoten zuerst an.
Hinweis

Selbst bei der Knotensortierung „Schlechtester“ sollten bei Bindungen zuerst der Knoten mit dem größten Wert von „% von N“ zuerst angezeigt werden. Daher sind die Sortierungen „Bester“ und „Schlechtester“ nicht immer Gegensätze voneinander.

Bei der Verwendung eines Testdatensatzes berechnet Minitab separate Statistiken für die Trainings- und die Testdaten. Sie können die Statistiken vergleichen, um die relative Leistung des Baums für die Trainingsdaten und neue Daten zu untersuchen. Die Teststatistiken sind in der Regel ein besseres Maß für die Leistung des Baums in Bezug auf neue Daten. Die Endknoten für Training und Test werden getrennt nach der jeweiligen Ereigniswahrscheinlichkeit in eine Rangfolge gebracht. Endknoten, die keine Beobachtungen für die Testdaten aufweisen, haben keine Ereigniswahrscheinlichkeit, und daher werden diese Knoten nicht berücksichtigt.

Endknoten
Die Identifikation des Endknotens.
Ereigniszahl oder Klassenzahl
Die Anzahl gibt die Anzahl der Fälle im Knoten für das Ereignis oder Nicht-Ereignis oder für die Klasse an. Wenn die Analyse Gewichtungen enthält, ist die Anzahl die gewichtete Anzahl. Endknoten mit vielen Fällen können von besonderem Interesse sein, da diese Knoten in der Regel gängigere Fälle darstellen.
Gesamtanzahl
Die Gesamtanzahl ist die Summe der Fälle mit dem Ereignis und Nicht-Ereignis oder die Summe aller Klassenzahlen.
% von N
Der Prozentsatz der Daten im Knoten.
Ereigniswahrsch. oder Klassenwahrsch.
Bei binären Antwortvariablen wird die Ereigniswahrscheinlichkeit, bei multinomialen Antwortvariablen die Klassenwahrscheinlichkeit angegeben.
Warsch. von Nicht-Ereignis oder Warsch. von Nicht-Klasse
Bei binären Antwortvariablen wird die Wahrscheinlichkeit des Nicht-Ereignisses, bei multinomialen Antwortvariablen die Wahrscheinlichkeit der Nicht-Klasse angegeben.
Chancen
Die Chancen geben das Verhältnis der Wahrscheinlichkeit des Ereignisses im Vergleich zum Nicht-Ereignis oder der Klasse zur Nicht-Klasse an.