Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.
Die Forscher wollen einen Klassifikationsbaum erstellen, der wichtige Prädiktoren identifiziert, um anzuzeigen, ob ein Patient an einer Herzerkrankung leidet.
In der Standardeinstellung zeigt Minitab den kleinsten Baum mit Fehlklassifikationskosten innerhalb von 1 Standardfehler des Baums an, der die Fehlklassifikationskosten minimiert. Dieser Baum weist 4 Endknoten auf.
Im Baumdiagramm beziehen sich blaue Elemente auf die Ereignisstufe. Rote Elemente beziehen sich auf die Nicht-Ereignisstufe. In dieser Ausgabe ist die Ereignisstufe „Ja“, und sie zeigt an, dass eine Person an einer Herzerkrankung leidet. Die Nicht-Ereignisstufe ist „Nein“, und sie zeigt an, dass eine Person nicht an einer Herzerkrankungen leidet.
Der nächste Teiler für den linken Kindknoten und den rechten Kindknoten ist „Brustschmerztyp“, wobei der Schmerz als1, 2, 3 oder 4 eingestuft wird.
Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind. Die Knoten, die überwiegend blau sind, weisen auf einen starken Anteil der Ereignisstufe hin. Die Knoten, die überwiegend rot sind, weisen auf einen starken Anteil der Nicht-Ereignisstufe hin.
Im Baumdiagramm wird der gesamte Datensatz oder der Trainingsdatensatz verwendet. Sie können zwischen der Detailansicht und der Knotenteilungsansicht des Baums umschalten.
Dieser Baum weist Fehlklassifikationskosten von etwa 0,391 auf.
Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der Top-Prädiktorvariablen, Chest Pain Type, 100% beträgt, dann hat die nächste wichtige Variable, Major Vessels, einen Beitrag von 86,5%. Dies bedeutet, dass Major Vessels in diesem Klassifikationsbaum 86,5% so wichtig ist wie Chest Pain Type.
Die Fläche unter der ROC-Kurve für die Testdaten beträgt 0,8200, was in vielen Anwendungen auf eine angemessene Klassifikationsleistung hinweist. Bei Anwendungen, die eine höhere Vorhersagegenauigkeit erfordern, können Sie versuchen, die Leistung mit einem TreeNet®-Klassifikation Modell oder einem Random Forests®-Klassifikation Modell zu verbessern.
In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall machen ca. 40% der Daten ca. 70% der True Positives aus.
In diesem Beispiel zeigt das Lift-Diagramm einen Anstieg über die Referenzlinie und fällt dann ab.
A-priori-Wahrsch. | Gleich für alle Klassen |
---|---|
Knotenteilung | Gini |
Optimaler Baum | Minimale Fehlklassifikationskosten |
Modellvalidierung | Kreuzvalidierung mit 10 Faltungen |
Verwendete Zeilen | 303 |
Variable | Klasse | Anzahl | % |
---|---|---|---|
Herzkrankheiten | 1 (Ereignis) | 139 | 45,87 |
0 | 164 | 54,13 | |
Alle | 303 | 100,00 |
Prädiktoren gesamt | 13 |
---|---|
Wichtige Prädiktoren | 13 |
Anzahl der Endknoten | 7 |
Minimale Endknotengröße | 5 |
Statistiken | Trainings | Test |
---|---|---|
Durchschnittliche -Log-Likelihood | 0,3971 | 0,5094 |
Fläche unter der ROC-Kurve | 0,8861 | 0,8200 |
95%-KI | (0,5590; 1) | (0,7702; 0,8697) |
Lift | 1,9376 | 1,8165 |
Fehlklassifikationskosten | 0,2924 | 0,3909 |
Prognostizierte Klasse (Trainings) | Prognostizierte Klasse (Test) | ||||||
---|---|---|---|---|---|---|---|
Tatsächliche Klasse | |||||||
Anzahl | 1 | 0 | % Richtig | 1 | 0 | % Richtig | |
1 (Ereignis) | 139 | 117 | 22 | 84,2 | 105 | 34 | 75,5 |
0 | 164 | 22 | 142 | 86,6 | 24 | 140 | 85,4 |
Alle | 303 | 139 | 164 | 85,5 | 129 | 174 | 80,9 |
Statistik | Trainings (%) | Test (%) |
---|---|---|
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) | 84,2 | 75,5 |
Falsch-Positiv-Rate (Fehler 1. Art) | 13,4 | 14,6 |
Falsch-Negativ-Rate (Fehler 2. Art) | 15,8 | 24,5 |
Richtig-Negativ-Rate (Spezifität) | 86,6 | 85,4 |
Eingabe Fehlklassifikationskosten | Prognostizierte Klasse | |
---|---|---|
Tatsächliche Klasse | 1 | 0 |
1 | 1,00 | |
0 | 1,00 |
Tatsächliche Klasse | Trainings | Test | ||||
---|---|---|---|---|---|---|
Anzahl | Fehlklassifiziert | % Fehler | Kosten | Fehlklassifiziert | % Fehler | |
1 (Ereignis) | 139 | 22 | 15,8 | 0,1583 | 34 | 24,5 |
0 | 164 | 22 | 13,4 | 0,1341 | 24 | 14,6 |
Alle | 303 | 44 | 14,5 | 0,1462 | 58 | 19,1 |
Tatsächliche Klasse | Test |
---|---|
Kosten | |
1 (Ereignis) | 0,2446 |
0 | 0,1463 |
Alle | 0,1955 |