Das Diagramm der Fehlklassifikationskosten vs. Anzahl der Endknoten zeigt die Fehlklassifikationskosten für jeden Baum in der Sequenz an, die den optimale Baum erzeugt. In der Standardeinstellung ist der anfängliche optimale Baum der kleinste Baum mit Fehlklassifikationskosten innerhalb von einem Standardfehler des Baums, der die Fehlklassifikationskosten minimiert. Wenn für die Analyse die Kreuzvalidierung oder ein Testdatensatz verwendet wird, stammen die Fehlklassifikationskosten aus der Validierungsstichprobe. Die Fehlklassifikationskosten für die Validierungsstichprobe nehmen in der Regel ab und steigen schließlich mit zunehmender Größe des Baums.
Prädiktoren gesamt | 13 |
---|---|
Wichtige Prädiktoren | 13 |
Anzahl der Endknoten | 4 |
Minimale Endknotengröße | 27 |
Statistiken | Trainings | Test |
---|---|---|
Durchschnittliche -Log-Likelihood | 0,4772 | 0,5164 |
Fläche unter der ROC-Kurve | 0,8192 | 0,8001 |
95%-KI | (0,3438; 1) | (0,7482; 0,8520) |
Lift | 1,6189 | 1,8849 |
Fehlklassifikationskosten | 0,3856 | 0,4149 |
Der Baum in der Sequenz mit vier Knoten weist Fehlklassifikationskosten von etwa 0,41 auf. Das Muster mit abnehmenden Fehlklassifikationskosten setzt sich nach dem Baum mit vier Knoten fort. In einem solchen Fall entscheiden sich die Analytiker dafür, einige der anderen einfachen Bäume zu untersuchen, die niedrigere Fehlklassifikationskosten aufweisen.
Prädiktoren gesamt | 13 |
---|---|
Wichtige Prädiktoren | 13 |
Anzahl der Endknoten | 7 |
Minimale Endknotengröße | 5 |
Statistiken | Trainings | Test |
---|---|---|
Durchschnittliche -Log-Likelihood | 0,3971 | 0,5094 |
Fläche unter der ROC-Kurve | 0,8861 | 0,8200 |
95%-KI | (0,5590; 1) | (0,7702; 0,8697) |
Lift | 1,9376 | 1,8165 |
Fehlklassifikationskosten | 0,2924 | 0,3909 |
Der Klassifikationsbaum, der die relativen kreuzvalidierten Fehlklassifikationskosten minimiert, weist sieben Endknoten und relative Fehlklassifikationskosten von etwa 0,39 auf. Andere Statistiken wie die Fläche unter der ROC-Kurve bestätigen ebenfalls, dass der Baum mit sieben Knoten eine bessere Leistung als der Baum mit vier Knoten bietet. Da der Baum mit sieben Knoten eine so kleine Anzahl von Knoten hat, dass er leicht zu interpretieren ist, entscheiden sich die Analytiker, anhand des Baums mit sieben Knoten die wichtigen Variablen zu untersuchen und Prognosen vorzunehmen.
Untersuchen Sie nach dem Auswählen eines Baums die reinsten Endknoten im Diagramm. Die Ereignisstufe wird durch die Farbe Blau dargestellt, während die Nicht-Ereignisstufe durch die Farbe Rot dargestellt wird.
Sie können mit der rechten Maustaste auf das Baumdiagramm klicken, um die Knotenteilungsansicht des Baums anzuzeigen. Diese Ansicht ist hilfreich, wenn Sie in einem umfangreichen Baum nur die Variablen anzeigen möchten, durch welche die Knoten geteilt werden.
Knoten werden so lange weiter geteilt, bis die Endknoten nicht in weitere Gruppen geteilt werden können. Die Knoten, die überwiegend blau sind, weisen auf einen starken Anteil der Ereignisstufe hin. Die Knoten, die überwiegend rot sind, weisen auf einen starken Anteil der Nicht-Ereignisstufe hin.
Der nächste Teiler für den linken Kindknoten und den rechten Kindknoten ist „Brustschmerztyp“, wobei der Schmerz als1, 2, 3 oder 4 eingestuft wird. Knoten 2 ist der Elternknoten von Endknoten 1, und Knoten 5 ist der Elternknoten von Endknoten 7.
Verwenden Sie das Diagramm der relativen Variablenwichtigkeit, um zu ermitteln, welche Prädiktoren die wichtigsten Variablen für den Baum sind.
Wichtige Variablen sind primäre oder Surrogat-Teiler im Baum. Die Variable mit dem höchsten Verbesserungswert wird als wichtigste Variable festgelegt, und es wird eine entsprechende Rangfolge der übrigen Variablen festgelegt. Bei der relativen Variablenwichtigkeit werden die Wichtigkeitswerte standardisiert, sodass sie leichter interpretiert werden können. Die relative Wichtigkeit ist als die prozentuale Verbesserung in Bezug auf den wichtigsten Prädiktor definiert.
Die relative Variablenwichtigkeit kann Werte von 0 % bis 100 % annehmen. Die wichtigste Variable hat immer eine relative Wichtigkeit von 100 %. Befindet sich eine Variable nicht im Baum, ist sie nicht wichtig.
Der genaueste Baum ist der Baum mit den niedrigsten Fehlklassifikationskosten. Manchmal funktionieren einfachere Bäume mit etwas höheren Fehlklassifikationskosten genauso gut. Mit dem Diagramm der Fehlklassifikationskosten vs. Anzahl der Endknoten können Sie Alternativbäume identifizieren.
Die Grenzwertoptimierungskurve (ROC-Kurve) veranschaulicht, wie gut ein Baum die Daten klassifiziert. Die ROC-Kurve bildet die Richtig-Positiv-Rate auf der y-Achse und die Falsch-Positiv-Rate auf der x-Achse ab. Die Richtig-Positiv-Rate wird auch als Trennschärfe bezeichnet. Die Falsch-Positiv-Rate wird auch als Fehler 1. Art bezeichnet.
Wenn ein Klassifikationsbaum Kategorien in der Antwortvariablen perfekt trennen kann, ist die Fläche unter der ROC-Kurve 1; dies entspricht dem bestmöglichen Klassifikationsmodell. Wenn eine Klassifikationsbaum Kategorien nicht unterscheiden kann und Zuordnungen komplett zufällig vornimmt, beträgt die Fläche unter der ROC-Kurve 0,5.
Wenn Sie den Baum mit einem Validierungsverfahren erstellen, stellt Minitab Informationen zur Leistung des Baums in den Trainings- und Validierungsdaten (Testdaten) bereit. Wenn die Kurven nah beieinander liegen, können Sie mit größerer Sicherheit behaupten, dass der Baum keine übermäßige Anpassung aufweist. Die Leistung des Baums mit den Testdaten gibt an, wie gut der Baum neue Daten prognostizieren kann.
Prognostizierte Klasse (Trainings) | Prognostizierte Klasse (Test) | ||||||
---|---|---|---|---|---|---|---|
Tatsächliche Klasse | |||||||
Anzahl | Ja | Nein | % Richtig | Ja | Nein | % Richtig | |
Ja (Ereignis) | 139 | 117 | 22 | 84,2 | 105 | 34 | 75,5 |
Nein | 164 | 22 | 142 | 86,6 | 24 | 140 | 85,4 |
Alle | 303 | 139 | 164 | 85,5 | 129 | 174 | 80,9 |
Statistik | Trainings (%) | Test (%) |
---|---|---|
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) | 84,2 | 75,5 |
Falsch-Positiv-Rate (Fehler 1. Art) | 13,4 | 14,6 |
Falsch-Negativ-Rate (Fehler 2. Art) | 15,8 | 24,5 |
Richtig-Negativ-Rate (Spezifität) | 86,6 | 85,4 |
Insgesamt beläuft sich %Richtig für die Trainingsdaten auf 85,5 % und für die Testdaten auf 80,9 %.