Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.
Die Forscher wollen einen Klassifikationsbaum erstellen, der wichtige Prädiktoren identifiziert, um anzuzeigen, ob ein Patient an einer Herzerkrankung leidet.
In der Standardeinstellung zeigt Minitab den kleinsten Baum mit Fehlklassifikationskosten innerhalb von 1 Standardfehler des Baums an, der die Fehlklassifikationskosten minimiert. Dieser Baum weist 4 Endknoten auf.
Im Baumdiagramm beziehen sich blaue Elemente auf die Ereignisstufe. Rote Elemente beziehen sich auf die Nicht-Ereignisstufe. In dieser Ausgabe ist die Ereignisstufe „Ja“, und sie zeigt an, dass eine Person an einer Herzerkrankung leidet. Die Nicht-Ereignisstufe ist „Nein“, und sie zeigt an, dass eine Person nicht an einer Herzerkrankungen leidet.
Der nächste Teiler für den linken Kindknoten und den rechten Kindknoten ist „Brustschmerztyp“, wobei der Schmerz als 1, 2, 3 oder 4 eingestuft wird.
Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind. Die Knoten, die überwiegend blau sind, weisen auf einen starken Anteil der Ereignisstufe hin. Die Knoten, die überwiegend rot sind, weisen auf einen starken Anteil der Nicht-Ereignisstufe hin.
A-priori-Wahrsch. | Gleich für alle Klassen |
---|---|
Knotenteilung | Gini |
Optimaler Baum | Minimale Fehlklassifikationskosten |
Modellvalidierung | Kreuzvalidierung mit 10 Faltungen |
Verwendete Zeilen | 303 |
Variable | Klasse | Anzahl | % |
---|---|---|---|
Herzkrankheiten | Ja (Ereignis) | 139 | 45,87 |
Nein | 164 | 54,13 | |
Alle | 303 | 100,00 |
Prädiktoren gesamt | 13 |
---|---|
Wichtige Prädiktoren | 13 |
Anzahl der Endknoten | 7 |
Minimale Endknotengröße | 5 |
Statistiken | Trainings | Test |
---|---|---|
Durchschnittliche -Log-Likelihood | 0,3971 | 0,5094 |
Fläche unter der ROC-Kurve | 0,8861 | 0,8200 |
95%-KI | (0,5590; 1) | (0,7702; 0,8697) |
Lift | 1,9376 | 1,8165 |
Fehlklassifikationskosten | 0,2924 | 0,3909 |
Prognostizierte Klasse (Trainings) | Prognostizierte Klasse (Test) | ||||||
---|---|---|---|---|---|---|---|
Tatsächliche Klasse | |||||||
Anzahl | Ja | Nein | % Richtig | Ja | Nein | % Richtig | |
Ja (Ereignis) | 139 | 117 | 22 | 84,2 | 105 | 34 | 75,5 |
Nein | 164 | 22 | 142 | 86,6 | 24 | 140 | 85,4 |
Alle | 303 | 139 | 164 | 85,5 | 129 | 174 | 80,9 |
Statistik | Trainings (%) | Test (%) |
---|---|---|
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) | 84,2 | 75,5 |
Falsch-Positiv-Rate (Fehler 1. Art) | 13,4 | 14,6 |
Falsch-Negativ-Rate (Fehler 2. Art) | 15,8 | 24,5 |
Richtig-Negativ-Rate (Spezifität) | 86,6 | 85,4 |
Eingabe Fehlklassifikationskosten | Prognostizierte Klasse | |
---|---|---|
Tatsächliche Klasse | Ja | Nein |
Ja | 1,00 | |
Nein | 1,00 |
Tatsächliche Klasse | Trainings | Test | ||||
---|---|---|---|---|---|---|
Anzahl | Fehlklassifiziert | % Fehler | Kosten | Fehlklassifiziert | % Fehler | |
Ja (Ereignis) | 139 | 22 | 15,8 | 0,1583 | 34 | 24,5 |
Nein | 164 | 22 | 13,4 | 0,1341 | 24 | 14,6 |
Alle | 303 | 44 | 14,5 | 0,1462 | 58 | 19,1 |
Tatsächliche Klasse | Test |
---|---|
Kosten | |
Ja (Ereignis) | 0,2446 |
Nein | 0,1463 |
Alle | 0,1955 |