Beispiel für CART® Klassifikation

Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.

Die Forscher wollen einen Klassifikationsbaum erstellen, der wichtige Prädiktoren identifiziert, um anzuzeigen, ob ein Patient an einer Herzerkrankung leidet.

  1. Öffnen Sie die Beispieldaten Herz-Kreislauf-ErkrankungenBinar.MTW.
  2. Wählen Sie Statistik > Prädiktive Analysen > CART® Klassifikation aus.
  3. Wählen Sie in der Dropdown-Liste die Option Binäre Antwort aus.
  4. Geben Sie im Feld Antwort die Spalte Herzkrankheiten ein.
  5. Wählen Sie in Antwortereignis den Wert Ja aus, um anzugeben, dass beim Patienten eine Herzerkrankung festgestellt wurde.
  6. Geben Sie im Feld Stetige Prädiktoren die Spalten Alter, Rest Blutdruck, Cholesterin, Max Herzfrequenz und Old Peak ein.
  7. Geben Sie im Feld Kategoriale Prädiktoren die Spalten Sex, Brust Schmerz Typ, Fasten Blutzucker, Rest-EKG, Übung Angina, Steigung, Hauptblutgefäße und Thal ein.
  8. Klicken Sie auf OK.

Interpretieren der Ergebnisse

In der Standardeinstellung zeigt Minitab den kleinsten Baum mit Fehlklassifikationskosten innerhalb von 1 Standardfehler des Baums an, der die Fehlklassifikationskosten minimiert. Dieser Baum weist 4 Endknoten auf.

Bevor die Forscher den Baum untersuchen, betrachten sie das Diagramm, das die Fehlklassifikationskosten aus der Kreuzvalidierung und die Anzahl der Endknoten zeigt. In diesem Diagramm setzt sich das Muster, bei dem die Fehlklassifikationskosten abnehmen, nach dem Baum mit vier Knoten fort. In einem solchen Fall entscheiden sich die Analytiker dafür, einige der anderen einfachen Bäume zu untersuchen, die niedrigere Fehlklassifikationskosten aufweisen.

Alternativbaum auswählen

  1. Klicken Sie in der Ausgabe auf Alternativbaum auswählen
  2. Wählen Sie im Diagramm den Baum mit sieben Knoten aus, der die geringsten Fehlklassifikationskosten und den besten ROC-Wert aufweist.
  3. Klicken Sie auf Baum erstellen.

Interpretieren der Ergebnisse

Im Baumdiagramm beziehen sich blaue Elemente auf die Ereignisstufe. Rote Elemente beziehen sich auf die Nicht-Ereignisstufe. In dieser Ausgabe ist die Ereignisstufe „Ja“, und sie zeigt an, dass eine Person an einer Herzerkrankung leidet. Die Nicht-Ereignisstufe ist „Nein“, und sie zeigt an, dass eine Person nicht an einer Herzerkrankungen leidet.

Am Wurzelknoten gibt es 139 Anzahlen für das Ereignis „Ja“ und 164 Anzahlen für das Ereignis „Nein“. Der Wurzelknoten wird mit der Variablen THAL geteilt. Wenn THAL = Normal, gehen Sie zum linken Knoten (Knoten 2). Wenn THAL = Fest oder Reversible, gehen Sie zum rechten Knoten (Knoten 5).
  • Knoten 2: Es gibt 167 Fälle, in denen THAL Normal war. Von den 167 Fällen sind 38 oder 22,8% Ja und 129 oder 77,2% Nein.
  • Knoten 5: Es gibt 136 Fälle, in denen THAL Fest oder Reversible war. Von den 136 Fällen sind 101 oder 74,3% Ja und 35 oder 25,7% Nein.

Der nächste Teiler für den linken Kindknoten und den rechten Kindknoten ist „Brustschmerztyp“, wobei der Schmerz als 1, 2, 3 oder 4 eingestuft wird.

Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind. Die Knoten, die überwiegend blau sind, weisen auf einen starken Anteil der Ereignisstufe hin. Die Knoten, die überwiegend rot sind, weisen auf einen starken Anteil der Nicht-Ereignisstufe hin.

Im Baumdiagramm wird der gesamte Datensatz oder der Trainingsdatensatz verwendet. Sie können zwischen der Detailansicht und der Knotenteilungsansicht des Baums umschalten.

Dieser Baum weist Fehlklassifikationskosten von etwa 0,391 auf.

Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der Top-Prädiktorvariablen, Chest Pain Type, 100% beträgt, dann hat die nächste wichtige Variable, Major Vessels, einen Beitrag von 86,5%. Dies bedeutet, dass Major Vessels in diesem Klassifikationsbaum 86,5% so wichtig ist wie Chest Pain Type.

Die Fläche unter der ROC-Kurve für die Testdaten beträgt 0,8200, was in vielen Anwendungen auf eine angemessene Klassifikationsleistung hinweist. Bei Anwendungen, die eine höhere Prognosegegenauigkeit erfordern, können Sie versuchen, die Leistung mit einem TreeNet®-Klassifikation oder einem Random Forests®-Klassifikation zu verbessern.

In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall machen ca. 40% der Daten ca. 70% der True Positives aus.

In diesem Beispiel zeigt das Lift-Diagramm einen Anstieg über die Referenzlinie und fällt dann ab.

CART®-Klassifikation mit 7 Knoten: Herzkrankheiten vs. Alter; Rest Blutdruck; Cholesterin; Max Herzfrequenz; Old Peak; Sex; Fasten Blutzucker; Übung Angina; Rest-EKG; Steigung; Thal; Brust Schmerz Typ; Hauptblutgefäße

Methode

A-priori-Wahrsch.Gleich für alle Klassen
KnotenteilungGini
Optimaler BaumMinimale Fehlklassifikationskosten
ModellvalidierungKreuzvalidierung mit 10 Faltungen
Verwendete Zeilen303

Informationen zur binären Antwort

VariableKlasseAnzahl%
HerzkrankheitenJa (Ereignis)13945,87
  Nein16454,13
  Alle303100,00

Zusammenfassung des Modells

Prädiktoren gesamt13
Wichtige Prädiktoren13
Anzahl der Endknoten7
Minimale Endknotengröße5
StatistikenTrainingsTest
Durchschnittliche -Log-Likelihood0,39710,5094
Fläche unter der ROC-Kurve0,88610,8200
        95%-KI(0,5590; 1)(0,7702; 0,8697)
Lift1,93761,8165
Fehlklassifikationskosten0,29240,3909

Konfusionsmatrix



Prognostizierte Klasse
(Trainings)
Prognostizierte Klasse
(Test)
Tatsächliche
Klasse

AnzahlJaNein% RichtigJaNein% Richtig
Ja (Ereignis)1391172284,21053475,5
Nein1642214286,62414085,4
Alle30313916485,512917480,9
StatistikTrainings
(%)
Test (%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)84,275,5
Falsch-Positiv-Rate (Fehler 1. Art)13,414,6
Falsch-Negativ-Rate (Fehler 2. Art)15,824,5
Richtig-Negativ-Rate (Spezifität)86,685,4

Fehlklassifikation

Eingabe
Fehlklassifikationskosten
Prognostizierte
Klasse
Tatsächliche KlasseJaNein
Ja  1,00
Nein1,00 
Tatsächliche
Klasse

TrainingsTest
AnzahlFehlklassifiziert% FehlerKostenFehlklassifiziert% Fehler
Ja (Ereignis)1392215,80,15833424,5
Nein1642213,40,13412414,6
Alle3034414,50,14625819,1
Tatsächliche
Klasse
Test
Kosten
Ja (Ereignis)0,2446
Nein0,1463
Alle0,1955