Beispiel für Anpassen des Modells with TreeNet®-Klassifikation

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.

Nach einer ersten Erkundung zur CART® Klassifikation Identifizierung der wichtigen Prädiktoren verwenden die Forscher beides TreeNet®-Klassifikation Random Forests®-Klassifikation, um aus demselben Datensatz intensivere Modelle zu erstellen. Die Forscher vergleichen die die Tabelle mit der Zusammenfassung des Modells und das ROC-Diagramm aus den Ergebnissen, um zu bewerten, welches Modell ein besseres Prognoseergebnis liefert. Ergebnisse aus den anderen Analysen finden Sie unter Beispiel für CART® Klassifikation und Beispiel für Random Forests®-Klassifikation.

  1. Öffnen Sie die Beispieldaten Herz-Kreislauf-ErkrankungenBinar.MTW.
  2. Wählen Sie Predictive Analytics-Modul > TreeNet® Klassifikation > Modell anpassen aus.
  3. Wählen Sie in der Dropdown-Liste die Option Binäre Antwort aus.
  4. Geben Sie im Feld Antwort den Wert Herzkrankheiten ein.
  5. Wählen Sie in Antwortereignis den Wert Ja aus, um anzugeben, dass beim Patienten eine Herzerkrankung festgestellt wurde.
  6. Geben Sie Alterin Stetige Prädiktoren, Rest Blutdruck, , Cholesterin und Max Herzfrequenz Old Peak ein.
  7. Geben Kategoriale Prädiktoren Sie Sexin Brust Schmerz Typ, Fasten Blutzucker, Rest-EKG, Übung Angina, Steigung und Thal Hauptblutgefäße ein.
  8. Klicken Sie auf OK.

Interpretieren der Ergebnisse

Für diese Analyse baut Minitab 300 Bäume auf, und die optimale Anzahl von Bäumen beträgt 298. Da die optimale Anzahl von Bäumen nahe an der maximalen Anzahl von Bäumen liegt, die das Modell aufbaut, wiederholen die Forscher die Analyse mit mehr Bäumen.

Zusammenfassung des Modells

Prädiktoren gesamt13
Wichtige Prädiktoren13
Anzahl der aufgebauten Bäume300
Optimale Anzahl von Bäumen298
StatistikenTrainingsTest
Durchschnittliche -Log-Likelihood0,25560,3881
Fläche unter der ROC-Kurve0,97960,9089
        95%-KI(0,9664; 0,9929)(0,8759; 0,9419)
Lift2,17992,1087
Fehlklassifizierungsrate0,08910,1617

Beispiel mit 500 Bäumen

  1. Wählen Sie in den Ergebnissen aus Optimieren von Hyperparametern.
  2. Geben Sie im Feld Anzahl der Bäume den Wert 500 ein.
  3. Klicken Sie auf Anzeigen der Ergebnisse.

Interpretieren der Ergebnisse

Für diese Analyse wurden 500 Bäume aufgebaut, und die optimale Anzahl von Bäumen beträgt 351. Das beste Modell verwendet eine Trainingsrate von 0,01, verwendet eine Teilstichproben-Fraktion von 0,5 und 6 als maximale Anzahl von Endknoten.

Methode

Kriterium für Auswahl der optimalen Anzahl von BäumenMaximale Log-Likelihood
ModellvalidierungKreuzvalidierung mit 5 Faltungen
Trainingsrate0,01
Auswahlmethode für TeilstichprobeVollständig zufällig
    Teilstichprobenfraktion0,5
Maximale Anzahl von Endknoten pro Baum6
Minimale Endknotengröße3
Anzahl der für die Knotenteilung ausgewählten PrädiktorenGesamtanzahl der Prädiktoren = 13
Verwendete Zeilen303

Informationen zur binären Antwort

VariableKlasseAnzahl%
Herzkrankheiten1 (Ereignis)13945,87
  016454,13
  Alle303100,00
TreeNet®-Klassifikation mit Hyperparameteranpassung: Herzkrankheiten vs. Alter; Rest Blutdruck; Cholesterin; Max Herzfrequenz; Old Peak; Sex; Brust Schmerz Typ; Fasten Blutzucker; Rest-EKG; Übung Angina; Steigung; Hauptblutgefäße; Thal

Methode

Kriterium für Auswahl der optimalen Anzahl von BäumenMaximale Log-Likelihood
ModellvalidierungKreuzvalidierung mit 5 Faltungen
Trainingsrate0,001; 0,01; 0,1
Teilstichprobenfraktion0,5; 0,7
Maximale Anzahl von Endknoten pro Baum6
Minimale Endknotengröße3
Anzahl der für die Knotenteilung ausgewählten PrädiktorenGesamtanzahl der Prädiktoren = 13
Verwendete Zeilen303

Informationen zur binären Antwort

VariableKlasseAnzahl%
Herzkrankheiten1 (Ereignis)13945,87
  016454,13
  Alle303100,00

Optimierung der Hyperparameter

Test
ModellOptimale
Anzahl von
Bäumen
Durchschnitt
-Log-Likelihood
Fläche unter
der ROC-Kurve
FehlklassifizierungsrateTrainingsrate
15000,5429020,9029560,1717490,001
2*3510,3865360,9089200,1750270,010
3330,3965550,9007820,1616940,100
45000,5432920,8941780,1781420,001
53740,3896070,9066200,1650820,010
6390,3933820,9013990,1749730,100
ModellTeilstichprobenfraktionMaximale
Anzahl von
Endknoten
10,56
2*0,56
30,56
40,76
50,76
60,76
* Das optimale Modell weist die minimale durchschnittliche –Log-Likelihood auf. Die Ausgabe
     für das optimale Modell folgt.

Das Diagramm der durchschnittlichen –Log-Likelihood vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Der optimale Wert für die Testdaten ist 0,3865, wenn die Anzahl der Bäume 351 beträgt.

Zusammenfassung des Modells

Prädiktoren gesamt13
Wichtige Prädiktoren13
Anzahl der aufgebauten Bäume500
Optimale Anzahl von Bäumen351
StatistikenTrainingsTest
Durchschnittliche -Log-Likelihood0,23410,3865
Fläche unter der ROC-Kurve0,98250,9089
        95%-KI(0,9706; 0,9945)(0,8757; 0,9421)
Lift2,17992,1087
Fehlklassifizierungsrate0,07590,1750

Zusammenfassung des Modells

Prädiktoren gesamt13
Wichtige Prädiktoren13
StatistikenAußerhalb des
Segments
Durchschnittliche -Log-Likelihood0,4004
Fläche unter der ROC-Kurve0,9028
        95%-KI(0,8693; 0,9363)
Lift2,1079
Fehlklassifizierungsrate0,1848

Die Tabelle mit der Zusammenfassung des Modells zeigt, dass die durchschnittliche negative Log-Likelihood, wenn die Anzahl der Bäume 351 beträgt, für die Trainingsdaten ungefähr 0,23 und für die Testdaten ungefähr 0,39 beträgt. Diese Statistiken zeigen ein ähnliches Modell, wie es von Minitab Random Forests® erstellt wird. Auch die Fehlklassifizierungsraten sind ähnlich.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „THAL“. Wenn der Beitrag der obersten Prädiktorvariablen, „THAL“, 100 % beträgt, hat die nächst wichtige Variable, „Hauptgefäße“, einen Beitrag von 97,8 %. Das heißt, dass „Hauptgefäße“ in diesem Klassifikationsmodell 97,8 % so wichtig wie „THAL“ ist.

Konfusionsmatrix



Prognostizierte Klasse
(Trainings)
Prognostizierte Klasse
(Test)
Tatsächliche
Klasse

Anzahl10% Richtig10% Richtig
1 (Ereignis)1391241589,211102979,14
0164815695,122414085,37
Alle30313217192,4113416982,51
Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die
     Zeile 0,5 überschreitet.
     
StatistikenTrainings
(%)
Test (%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)89,2179,14
Falsch-Positiv-Rate (Fehler 1. Art)4,8814,63
Falsch-Negativ-Rate (Fehler 2. Art)10,7920,86
Richtig-Negativ-Rate (Spezifität)95,1285,37

Die Konfusionsmatrix veranschaulicht, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel liegt die Wahrscheinlichkeit, dass ein Ereignis korrekt prognostiziert wird, bei 79,14%. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis korrekt prognostiziert wird, beträgt 85,37%.

Fehlklassifikation

Tatsächliche
Klasse

TrainingsTest
AnzahlFehlklassifiziert% FehlerFehlklassifiziert% Fehler
1 (Ereignis)1391510,792920,86
016484,882414,63
Alle303237,595317,49
Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die
     Zeile 0,5 überschreitet.

Die Fehlklassifizierungsrate gibt an, ob das Modell neue Beobachtungen genau prognostizieren wird. Bei der Prognose von Ereignissen beträgt der Fehler bei der Fehlklassifikation im Test 20,86%. Bei der Prognose von Nicht-Ereignissen beträgt der Fehler bei der Fehlklassifikation 14,63% und insgesamt 17,49%.

Die Fläche unter der ROC-Kurve bei einer Baumanzahl von 351 beträgt für die Trainingsdaten etwa 0,98 und für die Testdaten etwa 0,91. Dies zeigt eine schöne Verbesserung gegenüber dem CART® Klassifikation Modell. Das Random Forests®-Klassifikation-Modell hat eine Test-AUROC von 0.9028, so dass diese 2 Methoden ähnliche Ergebnisse liefern.

In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall machen ca. 40% der Daten ca. 80% der True Positives aus. Diese Differenz entspricht dem zusätzlichen Gain, der aus der Verwendung des Modells resultiert.

In diesem Beispiel zeigt das Lift-Diagramm einen starken Anstieg über die Referenzlinie und fällt dann ab.

Verwenden Sie die partiellen Abhängigkeitsdiagramme, um einen Einblick in die Auswirkungen der wichtigen Variablen oder Variablenpaare auf die angepassten Antwortwerte zu erhalten. Die angepassten Antwortwerte liegen auf der 1/2 Log-Skala. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Im Diagramm der partiellen Abhängigkeit für den Brustschmerztyp variieren beispielsweise die 1/2 logarithmierten Chancen und steigen dann steil an. Wenn der Brustschmerztyp 4 ist, erhöht sich die 1/2 logarithmierte Chance des Auftretens einer Herzerkrankung von etwa –0,04 auf 0,03. Auswählen Diagramme bei einem Prädiktor oder Diagramme bei zwei Prädiktoren Erstellen von Diagrammen für andere Variablen