Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.
Die Forscher wollen einen Klassifikationsbaum erstellen, der wichtige Prädiktoren identifiziert, um anzuzeigen, ob ein Patient an einer Herzerkrankung leidet.
Wählen Sie Predictive
Analytics-Modul > CART® Klassifikation.
Wählen Sie in der Dropdown-Liste die Option Binäre
Antwort aus.
Geben Sie im Feld Antwort den Wert Herzkrankheiten ein.
Wählen Sie in Antwortereignis den Wert Ja aus, um anzugeben, dass beim Patienten eine Herzerkrankung festgestellt wurde.
Geben Sie Alter in Stetige Prädiktoren, Rest Blutdruck, , Cholesterin und Max HerzfrequenzOld Peak ein.
Geben Kategoriale Prädiktoren Sie Sex in Brust Schmerz Typ, Fasten Blutzucker, Rest-EKG, Übung Angina, Steigung, und Thal, Hauptblutgefäße ein.
Klicken Sie auf OK.
Interpretieren der Ergebnisse
In der Standardeinstellung zeigt Minitab den kleinsten Baum mit Fehlklassifikationskosten innerhalb von 1 Standardfehler des Baums an, der die Fehlklassifikationskosten minimiert. Dieser Baum weist 4 Endknoten auf.
Bevor die Forscher den Baum untersuchen, betrachten sie das Diagramm, das die Fehlklassifikationskosten aus der Kreuzvalidierung und die Anzahl der Endknoten zeigt. In diesem Diagramm setzt sich das Muster, bei dem die Fehlklassifikationskosten abnehmen, nach dem Baum mit vier Knoten fort. In einem solchen Fall entscheiden sich die Analytiker dafür, einige der anderen einfachen Bäume zu untersuchen, die niedrigere Fehlklassifikationskosten aufweisen.
Alternativbaum auswählen
Klicken Sie in der Ausgabe auf Alternativbaum auswählen
Wählen Sie im Diagramm den Baum mit sieben Knoten aus, der die geringsten Fehlklassifikationskosten und den besten ROC-Wert aufweist.
Klicken Sie auf Baum
erstellen.
Interpretieren der Ergebnisse
Im Baumdiagramm beziehen sich blaue Elemente auf die Ereignisstufe. Rote Elemente beziehen sich auf die Nicht-Ereignisstufe. In dieser Ausgabe ist die Ereignisstufe „Ja“, und sie zeigt an, dass eine Person an einer Herzerkrankung leidet. Die Nicht-Ereignisstufe ist „Nein“, und sie zeigt an, dass eine Person nicht an einer Herzerkrankungen leidet.
Am Wurzelknoten gibt es 139 Anzahlen für das Ereignis „Ja“ und 164 Anzahlen für das Ereignis „Nein“. Der Wurzelknoten wird mit der Variablen THAL geteilt. Wenn THAL = Normal, gehen Sie zum linken Knoten (Knoten 2). Wenn THAL = Fest oder Reversible, gehen Sie zum rechten Knoten (Knoten 5).
Knoten 2: Es gibt 167 Fälle, in denen THAL Normal war. Von den 167 Fällen sind 38 oder 22,8% Ja und 129 oder 77,2% Nein.
Knoten 5: Es gibt 136 Fälle, in denen THAL Fest oder Reversible war. Von den 136 Fällen sind 101 oder 74,3% Ja und 35 oder 25,7% Nein.
Der nächste Teiler für den linken Kindknoten und den rechten Kindknoten ist „Brustschmerztyp“, wobei der Schmerz als1, 2, 3 oder 4 eingestuft wird.
Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind. Die Knoten, die überwiegend blau sind, weisen auf einen starken Anteil der Ereignisstufe hin. Die Knoten, die überwiegend rot sind, weisen auf einen starken Anteil der Nicht-Ereignisstufe hin.
CART®-Klassifikation mit 7 Knoten: Herzkrankheiten vs. Alter; Rest Blutdruck; Cholesterin; Max Herzfrequenz; Old Peak; Sex; Fasten Blutzucker; Übung Angina; Rest-EKG; Steigung; Thal; Brust Schmerz Typ; Hauptblutgefäße
Methode
A-priori-Wahrsch.
Gleich für alle Klassen
Knotenteilung
Gini
Optimaler Baum
Minimale Fehlklassifikationskosten
Modellvalidierung
Kreuzvalidierung mit 10 Faltungen
Verwendete Zeilen
303
Informationen zur binären Antwort
Variable
Klasse
Anzahl
%
Herzkrankheiten
1 (Ereignis)
139
45,87
0
164
54,13
Alle
303
100,00
Zusammenfassung des Modells
Prädiktoren gesamt
13
Wichtige Prädiktoren
13
Anzahl der Endknoten
7
Minimale Endknotengröße
5
Statistiken
Trainings
Test
Durchschnittliche -Log-Likelihood
0,3971
0,5094
Fläche unter der ROC-Kurve
0,8861
0,8200
95%-KI
(0,5590; 1)
(0,7702; 0,8697)
Lift
1,9376
1,8165
Fehlklassifikationskosten
0,2924
0,3909
Konfusionsmatrix
Prognostizierte Klasse (Trainings)
Prognostizierte Klasse (Test)
Tatsächliche Klasse
Anzahl
1
0
% Richtig
1
0
% Richtig
1 (Ereignis)
139
117
22
84,2
105
34
75,5
0
164
22
142
86,6
24
140
85,4
Alle
303
139
164
85,5
129
174
80,9
Statistik
Trainings (%)
Test (%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)