Beispiel für CART^® Klassifikation

Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.

Die Forscher wollen einen Klassifikationsbaum erstellen, der wichtige Prädiktoren identifiziert, um anzuzeigen, ob ein Patient an einer Herzerkrankung leidet.

Öffnen Sie die Beispieldaten Herz-Kreislauf-ErkrankungenBinar.MWX.
Wählen Sie Predictive Analytics-Modul > CART® Klassifikation.
Wählen Sie in der Dropdown-Liste die Option Binäre Antwort aus.
Geben Sie im Feld Antwort den Wert Herzkrankheiten ein.
Wählen Sie in Antwortereignis den Wert Ja aus, um anzugeben, dass beim Patienten eine Herzerkrankung festgestellt wurde.
Geben Sie Alter in Stetige Prädiktoren, Rest Blutdruck, , Cholesterin und Max Herzfrequenz Old Peak ein.
Geben Kategoriale Prädiktoren Sie Sex in Brust Schmerz Typ, Fasten Blutzucker, Rest-EKG, Übung Angina, Steigung, und Thal, Hauptblutgefäße ein.
Klicken Sie auf OK.

Interpretieren der Ergebnisse

In der Standardeinstellung zeigt Minitab den kleinsten Baum mit Fehlklassifikationskosten innerhalb von 1 Standardfehler des Baums an, der die Fehlklassifikationskosten minimiert. Dieser Baum weist 4 Endknoten auf.

Bevor die Forscher den Baum untersuchen, betrachten sie das Diagramm, das die Fehlklassifikationskosten aus der Kreuzvalidierung und die Anzahl der Endknoten zeigt. In diesem Diagramm setzt sich das Muster, bei dem die Fehlklassifikationskosten abnehmen, nach dem Baum mit vier Knoten fort. In einem solchen Fall entscheiden sich die Analytiker dafür, einige der anderen einfachen Bäume zu untersuchen, die niedrigere Fehlklassifikationskosten aufweisen.

Alternativbaum auswählen

Klicken Sie in der Ausgabe auf Alternativbaum auswählen
Wählen Sie im Diagramm den Baum mit sieben Knoten aus, der die geringsten Fehlklassifikationskosten und den besten ROC-Wert aufweist.
Klicken Sie auf Baum erstellen.

Interpretieren der Ergebnisse

Im Baumdiagramm beziehen sich blaue Elemente auf die Ereignisstufe. Rote Elemente beziehen sich auf die Nicht-Ereignisstufe. In dieser Ausgabe ist die Ereignisstufe „Ja“, und sie zeigt an, dass eine Person an einer Herzerkrankung leidet. Die Nicht-Ereignisstufe ist „Nein“, und sie zeigt an, dass eine Person nicht an einer Herzerkrankungen leidet.

Am Wurzelknoten gibt es 139 Anzahlen für das Ereignis „Ja“ und 164 Anzahlen für das Ereignis „Nein“. Der Wurzelknoten wird mit der Variablen THAL geteilt. Wenn THAL = Normal, gehen Sie zum linken Knoten (Knoten 2). Wenn THAL = Fest oder Reversible, gehen Sie zum rechten Knoten (Knoten 5).

Knoten 2: Es gibt 167 Fälle, in denen THAL Normal war. Von den 167 Fällen sind 38 oder 22,8% Ja und 129 oder 77,2% Nein.
Knoten 5: Es gibt 136 Fälle, in denen THAL Fest oder Reversible war. Von den 136 Fällen sind 101 oder 74,3% Ja und 35 oder 25,7% Nein.

Der nächste Teiler für den linken Kindknoten und den rechten Kindknoten ist „Brustschmerztyp“, wobei der Schmerz als1, 2, 3 oder 4 eingestuft wird.

Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind. Die Knoten, die überwiegend blau sind, weisen auf einen starken Anteil der Ereignisstufe hin. Die Knoten, die überwiegend rot sind, weisen auf einen starken Anteil der Nicht-Ereignisstufe hin.

Im Baumdiagramm wird der gesamte Datensatz oder der Trainingsdatensatz verwendet. Sie können zwischen der Detailansicht und der Knotenteilungsansicht des Baums umschalten.

Dieser Baum weist Fehlklassifikationskosten von etwa 0,391 auf.

Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der Top-Prädiktorvariablen, Chest Pain Type, 100% beträgt, dann hat die nächste wichtige Variable, Major Vessels, einen Beitrag von 86,5%. Dies bedeutet, dass Major Vessels in diesem Klassifikationsbaum 86,5% so wichtig ist wie Chest Pain Type.

Die Fläche unter der ROC-Kurve für die Testdaten beträgt 0,8200, was in vielen Anwendungen auf eine angemessene Klassifikationsleistung hinweist. Bei Anwendungen, die eine höhere Vorhersagegenauigkeit erfordern, können Sie versuchen, die Leistung mit einem TreeNet^®-Klassifikation Modell oder einem Random Forests^®-Klassifikation Modell zu verbessern.

In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall machen ca. 40% der Daten ca. 70% der True Positives aus.

In diesem Beispiel zeigt das Lift-Diagramm einen Anstieg über die Referenzlinie und fällt dann ab.

CART®-Klassifikation mit 7 Knoten: Herzkrankheiten vs. Alter; Rest Blutdruck; Cholesterin; Max Herzfrequenz; Old Peak; Sex; Fasten Blutzucker; Übung Angina; Rest-EKG; Steigung; Thal; Brust Schmerz Typ; Hauptblutgefäße

Methode

A-priori-Wahrsch.	Gleich für alle Klassen
Knotenteilung	Gini
Optimaler Baum	Minimale Fehlklassifikationskosten
Modellvalidierung	Kreuzvalidierung mit 10 Faltungen
Verwendete Zeilen	303

Informationen zur binären Antwort

Variable	Klasse	Anzahl	%
Herzkrankheiten	1 (Ereignis)	139	45,87
	0	164	54,13
	Alle	303	100,00

Zusammenfassung des Modells

Prädiktoren gesamt	13
Wichtige Prädiktoren	13
Anzahl der Endknoten	7
Minimale Endknotengröße	5

Statistiken	Trainings	Test
Durchschnittliche -Log-Likelihood	0,3971	0,5094
Fläche unter der ROC-Kurve	0,8861	0,8200
95%-KI	(0,5590; 1)	(0,7702; 0,8697)
Lift	1,9376	1,8165
Fehlklassifikationskosten	0,2924	0,3909

Konfusionsmatrix

		Prognostizierte Klasse (Trainings)			Prognostizierte Klasse (Test)
Tatsächliche Klasse		Prognostizierte Klasse (Trainings)			Prognostizierte Klasse (Test)
Tatsächliche Klasse	Anzahl	1	0	% Richtig	1	0	% Richtig
1 (Ereignis)	139	117	22	84,2	105	34	75,5
0	164	22	142	86,6	24	140	85,4
Alle	303	139	164	85,5	129	174	80,9

Statistik	Trainings (%)	Test (%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)	84,2	75,5
Falsch-Positiv-Rate (Fehler 1. Art)	13,4	14,6
Falsch-Negativ-Rate (Fehler 2. Art)	15,8	24,5
Richtig-Negativ-Rate (Spezifität)	86,6	85,4

Fehlklassifikation

Eingabe Fehlklassifikationskosten	Prognostizierte Klasse
Tatsächliche Klasse	1	0
1		1,00
0	1,00

Tatsächliche Klasse		Trainings			Test
Tatsächliche Klasse	Anzahl	Fehlklassifiziert	% Fehler	Kosten	Fehlklassifiziert	% Fehler
1 (Ereignis)	139	22	15,8	0,1583	34	24,5
0	164	22	13,4	0,1341	24	14,6
Alle	303	44	14,5	0,1462	58	19,1

Tatsächliche Klasse	Test
Tatsächliche Klasse	Kosten
1 (Ereignis)	0,2446
0	0,1463
Alle	0,1955

Beispiel für CART® Klassifikation

Interpretieren der Ergebnisse

Alternativbaum auswählen

Interpretieren der Ergebnisse

Methode

Informationen zur binären Antwort

Zusammenfassung des Modells

Konfusionsmatrix

Fehlklassifikation

Beispiel für CART^® Klassifikation