Beispiel für CART® Klassifikation

Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.

Die Forscher wollen einen Klassifikationsbaum erstellen, der wichtige Prädiktoren identifiziert, um anzuzeigen, ob ein Patient an einer Herzerkrankung leidet.

  1. Öffnen Sie die Beispieldaten Herz-Kreislauf-ErkrankungenBinar.MTW.
  2. Wählen Sie Statistik > Prädiktive Analysen > CART® Klassifikation aus.
  3. Wählen Sie in der Dropdown-Liste die Option Binäre Antwort aus.
  4. Geben Sie im Feld Antwort die Spalte Herzkrankheiten ein.
  5. Wählen Sie in Antwortereignis den Wert Ja aus, um anzugeben, dass beim Patienten eine Herzerkrankung festgestellt wurde.
  6. Geben Sie im Feld Stetige Prädiktoren die Spalten Alter, Rest Blutdruck, Cholesterin, Max Herzfrequenz und Old Peak ein.
  7. Geben Sie im Feld Kategoriale Prädiktoren die Spalten Sex, Brust Schmerz Typ, Fasten Blutzucker, Rest-EKG, Übung Angina, Steigung, Hauptblutgefäße und Thal ein.
  8. Klicken Sie auf OK.

Interpretieren der Ergebnisse

In der Standardeinstellung zeigt Minitab den kleinsten Baum mit Fehlklassifikationskosten innerhalb von 1 Standardfehler des Baums an, der die Fehlklassifikationskosten minimiert. Dieser Baum weist 4 Endknoten auf.

Bevor die Forscher den Baum untersuchen, betrachten sie das Diagramm, das die Fehlklassifikationskosten aus der Kreuzvalidierung und die Anzahl der Endknoten zeigt. In diesem Diagramm setzt sich das Muster, bei dem die Fehlklassifikationskosten abnehmen, nach dem Baum mit vier Knoten fort. In einem solchen Fall entscheiden sich die Analytiker dafür, einige der anderen einfachen Bäume zu untersuchen, die niedrigere Fehlklassifikationskosten aufweisen.

Alternativbaum auswählen

  1. Klicken Sie in der Ausgabe auf Alternativbaum auswählen
  2. Wählen Sie im Diagramm den Baum mit sieben Knoten aus, der die geringsten Fehlklassifikationskosten und den besten ROC-Wert aufweist.
  3. Klicken Sie auf Baum erstellen.

Interpretieren der Ergebnisse

Im Baumdiagramm beziehen sich blaue Elemente auf die Ereignisstufe. Rote Elemente beziehen sich auf die Nicht-Ereignisstufe. In dieser Ausgabe ist die Ereignisstufe „Ja“, und sie zeigt an, dass eine Person an einer Herzerkrankung leidet. Die Nicht-Ereignisstufe ist „Nein“, und sie zeigt an, dass eine Person nicht an einer Herzerkrankungen leidet.

Am Wurzelknoten gibt es 139 Anzahlen für das Ereignis „Ja“ und 164 Anzahlen für das Ereignis „Nein“. Der Wurzelknoten wird mit der Variablen THAL geteilt. Wenn THAL = Normal, gehen Sie zum linken Knoten (Knoten 2). Wenn THAL = Fest oder Reversible, gehen Sie zum rechten Knoten (Knoten 5).
  • Knoten 2: Es gibt 167 Fälle, in denen THAL Normal war. Von den 167 Fällen sind 38 oder 22,8% Ja und 129 oder 77,2% Nein.
  • Knoten 5: Es gibt 136 Fälle, in denen THAL Fest oder Reversible war. Von den 136 Fällen sind 101 oder 74,3% Ja und 35 oder 25,7% Nein.

Der nächste Teiler für den linken Kindknoten und den rechten Kindknoten ist „Brustschmerztyp“, wobei der Schmerz als 1, 2, 3 oder 4 eingestuft wird.

Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind. Die Knoten, die überwiegend blau sind, weisen auf einen starken Anteil der Ereignisstufe hin. Die Knoten, die überwiegend rot sind, weisen auf einen starken Anteil der Nicht-Ereignisstufe hin.

Im Baumdiagramm wird der gesamte Datensatz oder der Trainingsdatensatz verwendet. Sie können zwischen der Detailansicht und der Knotenteilungsansicht des Baums umschalten.

Dieser Baum weist Fehlklassifikationskosten von etwa 0,391 auf.

Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der Top-Prädiktorvariablen, Chest Pain Type, 100% beträgt, dann hat die nächste wichtige Variable, Major Vessels, einen Beitrag von 86,5%. Dies bedeutet, dass Major Vessels in diesem Klassifikationsbaum 86,5% so wichtig ist wie Chest Pain Type.

Die Fläche unter der ROC-Kurve für die Testdaten beträgt 0,8200, was in vielen Anwendungen auf eine angemessene Klassifikationsleistung hinweist. Bei Anwendungen, die eine höhere Prognosegegenauigkeit erfordern, können Sie versuchen, die Leistung mit einem TreeNet®-Klassifikation oder einem Random Forests®-Klassifikation zu verbessern.

In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall machen ca. 40% der Daten ca. 70% der True Positives aus.

In diesem Beispiel zeigt das Lift-Diagramm einen Anstieg über die Referenzlinie und fällt dann ab.

CART®-Klassifikation mit 7 Knoten: Herzkrankheiten vs. Alter; Rest Blutdruck; Cholesterin; Max Herzfrequenz; Old Peak; Sex; Fasten Blutzucker; Übung Angina; Rest-EKG; Steigung; Thal; Brust Schmerz Typ; Hauptblutgefäße

Methode A-priori-Wahrsch. Gleich für alle Klassen Knotenteilung Gini Optimaler Baum Minimale Fehlklassifikationskosten Modellvalidierung Kreuzvalidierung mit 10 Faltungen Verwendete Zeilen 303
Informationen zur binären Antwort Variable Klasse Anzahl % Herzkrankheiten 1 (Ereignis) 139 45,87 0 164 54,13 Alle 303 100,00
Zusammenfassung des Modells Prädiktoren gesamt 13 Wichtige Prädiktoren 13 Anzahl der Endknoten 7 Minimale Endknotengröße 5 Statistiken Schulungen Test Durchschnittliche -Log-Likelihood 0,3971 0,5094 Fläche unter der ROC-Kurve 0,8861 0,8200 95%-KI (0,5590; 1) (0,7702; 0,8697) Lift 1,9376 1,8165 Fehlklassifikationskosten 0,2924 0,3909
Konfusionsmatrix Prognostizierte Klasse Prognostizierte Klasse Tatsächliche (Schulungen) (Test) Klasse Anzahl 1 0 % Richtig 1 0 % Richtig 1 (Ereignis) 139 117 22 84,2 105 34 75,5 0 164 22 142 86,6 24 140 85,4 Alle 303 139 164 85,5 129 174 80,9 Schulungen Statistik (%) Test (%) Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) 84,2 75,5 Falsch-Positiv-Rate (Fehler 1. Art) 13,4 14,6 Falsch-Negativ-Rate (Fehler 2. Art) 15,8 24,5 Richtig-Negativ-Rate (Spezifität) 86,6 85,4
Fehlklassifikation Eingabe Prognostizierte Fehlklassifikationskosten Klasse Tatsächliche Klasse 1 0 1 1,00 0 1,00 Tatsächliche Schulungen Test Klasse Anzahl Fehlklassifiziert % Fehler Kosten Fehlklassifiziert 1 (Ereignis) 139 22 15,8 0,1583 34 0 164 22 13,4 0,1341 24 Alle 303 44 14,5 0,1462 58 Tatsächliche Klasse % Fehler Kosten 1 (Ereignis) 24,5 0,2446 0 14,6 0,1463 Alle 19,1 0,1955