Beispiel für die Baumerstellung mit CART® Klassifizierung

Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.

Die Forscher wollen einen Klassifikationsbaum erstellen, der wichtige Prädiktoren identifiziert, um anzuzeigen, ob ein Patient an einer Herzerkrankung leidet.

  1. Öffnen Sie die Beispieldaten, Herz-Kreislauf-ErkrankungenBinar.MTW.
  2. Wählen Sie Statistik > Prädiktive Analysen > CART® Klassifikationaus.
  3. Wählen Sie in der Dropdown-Liste Binäre Antwortaus.
  4. Geben Sie in Antwort den Wert Herzkrankheitenein.
  5. Geben Sie in Antwortereignis den Wert Ja ein, um anzugeben, dass beim Patienten eine Herzerkrankung festgestellt wurde.
  6. Geben Sie in Stetige Prädiktoren die Werte Alter, Rest Blutdruck, Cholesterin, Max Herzfrequenzund Old Peak ein.
  7. Geben Sie in Kategoriale Prädiktoren die Werte Sex, Brust Schmerz Typ, Fasten Blutzucker, Rest-EKG, Übung Angina, Steigung, Wichtige Schiffeund Thal ein.
  8. Klicken Sie auf OK.

Interpretieren der Ergebnisse

In der Standardeinstellung zeigt Minitab den kleinsten Baum mit Fehlklassifikationskosten innerhalb von 1 Standardfehler des Baums an, der die Fehlklassifikationskosten minimiert. Dieser Baum hat vier Endknoten.

Bevor die Forscher den Baum untersuchen, betrachten sie das Diagramm, das die Fehlklassifikationskosten aus der Kreuzvalidierung und die Anzahl der Endknoten zeigt. In diesem Diagramm setzt sich das Muster, bei dem die Fehlklassifikationskosten abnehmen, nach dem Baum mit vier Knoten fort. In einem solchen Fall entscheiden sich die Analytiker dafür, einige der anderen einfachen Bäume zu untersuchen, die niedrigere Fehlklassifikationskosten aufweisen.

Alternativbaum auswählen

  1. Klicken Sie in der Ausgabe auf Alternativbaum auswählen
  2. Wählen Sie im Diagramm den Baum mit sieben Knoten aus, der die geringsten Fehlklassifikationskosten und den besten ROC-Wert aufweist.
  3. Klicken Sie auf Baum erstellen.

Interpretieren der Ergebnisse

Im Baumdiagramm beziehen sich blaue Elemente auf die Ereignisstufe. Rote Elemente beziehen sich auf die Nicht-Ereignisstufe. In dieser Ausgabe ist die Ereignisstufe „Ja“, und sie zeigt an, dass eine Person an einer Herzerkrankung leidet. Die Nicht-Ereignisstufe ist „Nein“, und sie zeigt an, dass eine Person nicht an einer Herzerkrankungen leidet.

Am Wurzelknoten gibt es 139 Anzahlen für das Ereignis „Ja“ und 164 Anzahlen für das Ereignis „Nein“. Der Wurzelknoten wird mit der Variablen THAL geteilt. Wenn THAL = Normal, gehen Sie zum linken Knoten (Knoten 2). Wenn THAL = Fest oder Reversible, gehen Sie zum rechten Knoten (Knoten 5).
  • Knoten 2: Es gibt 167 Fälle, in denen THAL Normal war. Von den 167 Fällen sind 38 bzw. 22,8 % gleich Ja und 129 bzw. 77,2 % gleich Nein.
  • Knoten 5: Es gibt 136 Fälle, in denen THAL Fest oder Reversible war. Von den 136 Fällen sind 101 bzw. 74,3 % gleich Ja und 35 bzw. 25,7 % gleich Nein.

Der nächste Teiler für den linken Kindknoten und den rechten Kindknoten ist „Brustschmerztyp“, wobei der Schmerz als1, 2, 3 oder 4 eingestuft wird.

Untersuchen Sie andere Knoten, um zu sehen, welche Variablen von größtem Interesse sind. Die Knoten, die überwiegend blau sind, weisen auf einen starken Anteil der Ereignisstufe hin. Die Knoten, die überwiegend rot sind, weisen auf einen starken Anteil der Nicht-Ereignisstufe hin.

Im Baumdiagramm wird der gesamte Datensatz oder der Trainingsdatensatz verwendet. Sie können zwischen der Detailansicht und der Knotenteilungsansicht des Baums umschalten.

Dieser Baum weist Fehlklassifikationskosten von etwa 0,391 auf.

Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der obersten Prädiktorvariablen, „Brustschmerztyp“, 100 % beträgt, hat die nächst wichtige Variable, „Hauptgefäße“, einen Beitrag von 86,5 %. Das heißt, dass „Hauptgefäße“ in diesem Klassifikationsbaum 86,5 % so wichtig wie „Brustschmerztyp“ ist.

Die Fläche unter der ROC-Kurve für die Testdaten beträgt 0,8200, was in den meisten Anwendungen auf eine angemessene Klassifikationsleistung hinweist.

CART® Klassifikation für Knoten 7: Herzkrankheiten vs. Alter; Rest Blutdruck; Cholesterin; Max Herzfrequenz; Old Peak; Sex; Fasten Blutzucker; Übung Angina; Rest-EKG; Steigung; Thal; Brust Schmerz Typ; Wichtige Schiffe

Methode A-priori-Wahrsch. Gleich für alle Klassen Knotenteilung Gini Optimaler Baum Minimale Fehlklassifikationskosten Modellvalidierung Kreuzvalidierung mit 10 Faltungen Verwendete Zeilen 303
Informationen zur binären Antwort Variable Klasse Anzahl % Herzkrankheiten Yes (Ereignis) 139 45,9 No 164 54,1 Alle 303 100,0
Zusammenfassung des Modells Prädiktoren gesamt 13 Wichtige Prädiktoren 13 Anzahl der Endknoten 7 Minimale Endknotengröße 5 Statistiken Schulungen Test R-Quadrat der Abweichung 0,4243 0,2615 Durchschnittliche -LogLikelihood 0,3971 0,5094 Fläche unterhalb der ROC-Kurve 0,8861 0,8200 95%-KI (0,5590; 1) (0,7702; 0,8697) Lift 1,9376 1,8165 Fehlklassifikationskosten 0,2924 0,3909
Konfusionsmatrix Prognostizierte Klasse Prognostizierte Klasse Tatsächliche (Schulungen) (Test) Klasse Anzahl Yes No %Richtig Yes No %Richtig Yes (Ereignis) 139 117 22 84,2 105 34 75,5 No 164 22 142 86,6 24 140 85,4 Alle 303 139 164 85,5 129 174 80,9 Schulungen Statistik (%) Test (%) Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) 84,2 75,5 Falsch-Positiv-Rate (Fehler 1. Art) 13,4 14,6 Falsch-Negativ-Rate (Fehler 2. Art) 15,8 24,5 Richtig-Negativ-Rate (Spezifität) 86,6 85,4
Fehlklassifikation Eingabe Prognostizierte Fehlklassifikationskosten Klasse Tatsächliche Klasse Yes No Yes 1,00 No 1,00 Tatsächliche Schulungen Test Klasse Anzahl Fehlklassifiziert % Fehler Kosten Fehlklassifiziert Yes (Ereignis) 139 22 15,8 0,1583 34 No 164 22 13,4 0,1341 24 Alle 303 44 14,5 0,1462 58 Tatsächliche Klasse % Fehler Kosten Yes (Ereignis) 24,5 0,2446 No 14,6 0,1463 Alle 19,1 0,1955
Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien