Beispiel für Bestes Modell ermitteln (binäre Antwort)

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Suche nach dem besten Modelltyp

Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.

Die Forscher wollen ein Modell finden, das möglichst genaue Vorhersagen trifft. Die Forscher verwenden Bestes Modell ermitteln (binäre Antwort) um die prädiktive Leistung von 4 Modelltypen zu vergleichen: binäre logistische Regression, TreeNet®, Random Forests® und CART.® Die Forscher planen, den Modelltyp mit der besten Vorhersageleistung weiter zu untersuchen.

  1. Öffnen Sie die Beispieldaten HerzKrankheitBinarBestesModell.MWX.
  2. Wählen Sie Predictive Analytics-Modul > Automatisiertes maschinelles Lernen > Bestes Modell ermitteln (binäre Antwort) aus.
  3. Geben Sie im Feld Antwort die Spalte 'Herzkrankheiten' ein.
  4. Geben Sie in Stetige Prädiktoren, 'Rest Blutdruck', Cholesterin, 'Max Herzfrequenz' und ' Old PeakAlter ein.
  5. Geben Kategoriale PrädiktorenSie Sexin , ' Brust Schmerz Typ', '', 'Fasten Blutzucker', 'Rest-EKG', '', Steigung,Übung Angina'Hauptblutgefäße' und Thal ein.
  6. Klicken Sie auf OK.

Interpretieren der Ergebnisse

In der Tabelle Modellauswahl wird die Leistung der verschiedenen Modelltypen verglichen. Das Random Forests-Modell® hat den Minimalwert der durchschnittlichen –log-Likelihood. Die folgenden Ergebnisse beziehen sich auf das beste Random Forests-Modell®.

Der Plot Fehlklassifikationsrate vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der angebauten Bäume. Die Fehlklassifizierungsrate liegt bei ca. 0,16.

Die Modellübersichtstabelle zeigt, dass die durchschnittliche negative logLikelihood etwa 0,39 beträgt.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „THAL“. Wenn der Beitrag der obersten Prädiktorvariablen, „THAL“, 100 % beträgt, hat die nächst wichtige Variable, „Hauptgefäße“, einen Beitrag von 98,9 %. Das heißt, dass „Hauptgefäße“ in diesem Klassifikationsmodell 98,9 % so wichtig wie „THAL“ ist.

Die Konfusionsmatrix zeigt, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel beträgt die Wahrscheinlichkeit, dass ein Ereignis richtig vorhergesagt wird, etwa 87 %. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis richtig vorhergesagt wird, beträgt ca. 81 %.

Die Fehlklassifizierungsrate gibt an, ob das Modell neue Beobachtungen genau vorhersagen kann. Für die Vorhersage von Ereignissen beträgt der Out-of-Bag-Fehlklassifikationsfehler etwa 13 %. Für die Vorhersage von Nichtereignissen beträgt der Fehlklassifizierungsfehler ca. 19 %. Insgesamt beträgt der Fehlklassifizierungsfehler für die Testdaten etwa 16 %.

Die Fläche unter der ROC-Kurve für das Random Forests-Modell® beträgt etwa 0,90 für die Out-of-Bag-Daten.

Bestes Modell ermitteln (binäre Antwort): Herzkrankheiten vs. Alter; Rest Blutdruck; Cholesterin; Max Herzfrequenz; Old Peak; Sex; Brust Schmerz Typ; Fasten Blutzucker; Rest-EKG; Übung Angina; Steigung; Hauptblutgefäße; Thal

Methode

Ein Modell der schrittweisen logistischen Regression mit linearen Termen und Termen 2. Ordnung anpassen.
6 TreeNet®-Klassifikationsmodell(e) anpassen.
3 Random Forests®-Klassifikationsmodell(e) mit Bootstrap-Stichprobenumfang gleich dem Trainingsdatenumfang von 303 anpassen.
Ein optimales CART®-Klassifikationsmodell anpassen.
Das Modell mit der maximalen Log-Likelihood aus der Kreuzvalidierung mit 5 Faltungen auswählen.
Gesamtzahl der Zeilen: 303
Für Modell der logistischen Regression verwendete Zeilen: 303
Für baumbasierte Modelle verwendete Zeilen: 303

Informationen zur binären Antwort

VariableKlasseAnzahl%
Herzkrankheiten1 (Ereignis)16554,46
  013845,54
  Alle303100,00
Bestes Modell
innerhalb des Typs
Durchschnitt
-Log-Likelihood
Fläche unter
der ROC-Kurve
Fehlklassifizierungsrate
Random Forests®*0,39040,90480,1584
TreeNet®0,39070,90320,1520
Logistische Regression0,46710,91420,1518
CART®1,80720,79910,2080
* Bestes Modell aller Modelltypen mit minimaler durchschnittlicher -Log-Likelihood. Die
     Ausgabe für das beste Modell folgt.

Hyperparameter für bestes Random Forests®-Modell

Anzahl der Bootstrap-Stichproben300
    StichprobenumfangEntspricht Umfang der Trainingsdaten von 303
Anzahl der für die Knotenteilung ausgewählten PrädiktorenQuadratwurzel der Gesamtanzahl der Prädiktoren = 3
Minimale interne Knotengröße8

Zusammenfassung des Modells

Prädiktoren gesamt13
Wichtige Prädiktoren13
StatistikenAußerhalb des
Segments
Durchschnittliche -Log-Likelihood0,3904
Fläche unter der ROC-Kurve0,9048
        95%-KI(0,8706; 0,9389)
Lift1,7758
Fehlklassifizierungsrate0,1584

Konfusionsmatrix


Prognostizierte Klasse
(außerhalb des Segments)
Tatsächliche
Klasse
Anzahl10% Richtig
1 (Ereignis)1651432286,67
01382611281,16
Alle30316913484,16
StatistikenAußerhalb
des
Segments
(%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)86,67
Falsch-Positiv-Rate (Fehler 1. Art)18,84
Falsch-Negativ-Rate (Fehler 2. Art)13,33
Richtig-Negativ-Rate (Spezifität)81,16

Fehlklassifikation

Tatsächliche
Klasse
Außerhalb des Segments
AnzahlFehlklassifiziert% Fehler
1 (Ereignis)1652213,33
01382618,84
Alle3034815,84

Wählen Sie ein alternatives Modell aus

Die Forscher können sich Ergebnisse für andere Modelle aus der Suche nach dem besten Modell ansehen. Für ein TreeNet® -Modell können Sie aus einem Modell auswählen, das Teil der Suche war, oder Hyperparameter für ein anderes Modell angeben.

  1. Wählen Sie Alternatives Modell auswählen aus.
  2. Wählen Sie im Feld Modelltyp die Option TreeNet® aus.
  3. Wählen Sie in Vorhandenes Modell auswählen das dritte Modell aus, das den besten Wert für die minimale durchschnittliche Loglikelihood aufweist.
  4. Klicken Sie auf Anzeigen der Ergebnisse.

Interpretieren der Ergebnisse

Diese Analyse erzeugt 300 Bäume, und die optimale Anzahl von Bäumen beträgt 46. Das Modell verwendet eine Lernrate von 0,1 und einen Teilstichprobenbruch von 0,5. Die maximale Anzahl an Terminalknoten pro Baum beträgt 6.

Das Diagramm der durchschnittlichen –Log-Likelihood vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Der optimale Wert aus der Kreuzvalidierung beträgt 0,3907, wenn die Anzahl der Bäume 46 beträgt.

Zusammenfassung des Modells

Prädiktoren gesamt13
Wichtige Prädiktoren13
Anzahl der aufgebauten Bäume300
Optimale Anzahl von Bäumen46
StatistikenTrainingsKreuzvalidierung
Durchschnittliche -Log-Likelihood0,20880,3907
Fläche unter der ROC-Kurve0,98420,9032
  95%-KI(0,9721; 0,9964)(0,8683; 0,9381)
Lift1,83641,7744
Fehlklassifizierungsrate0,07260,1520

Wenn die Anzahl der Bäume 46 beträgt, zeigt die Modellzusammenfassungstabelle an, dass die durchschnittliche negative Loglikelihood für die Trainingsdaten ungefähr 0,21 und für die Kreuzvalidierungsergebnisse ungefähr 0,39 beträgt.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der obersten Prädiktorvariablen, des Brustschmerztyps, 100 % beträgt, dann hat die nächste wichtige Variable, Thal, einen Beitrag von 95,8 %. Das bedeutet, dass Thal in diesem Klassifikationsmodell zu 95,8 % so wichtig ist wie der Brustschmerztyp.

Konfusionsmatrix



Prognostizierte Klasse
(Trainings)
Prognostizierte Klasse
(Kreuzvalidierung)
Tatsächliche
Klasse

Anzahl10% Richtig10% Richtig
1 (Ereignis)165156994,551471889,09
01381312590,582811079,71
Alle30316913492,7417512884,82
Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die
     Zeile 0,5 überschreitet.
     
StatistikenTrainings
(%)
Kreuzvalidierung
(%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)94,5589,09
Falsch-Positiv-Rate (Fehler 1. Art)9,4220,29
Falsch-Negativ-Rate (Fehler 2. Art)5,4510,91
Richtig-Negativ-Rate (Spezifität)90,5879,71

Die Konfusionsmatrix zeigt, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel beträgt die Wahrscheinlichkeit, dass ein Ereignis richtig vorhergesagt wird, etwa 89 %. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis richtig vorhergesagt wird, beträgt ca. 80 %.

Fehlklassifikation

Tatsächliche
Klasse

TrainingsKreuzvalidierung
AnzahlFehlklassifiziert% FehlerFehlklassifiziert% Fehler
1 (Ereignis)16595,451810,91
0138139,422820,29
Alle303227,264615,18
Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die
     Zeile 0,5 überschreitet.

Die Fehlklassifizierungsrate hilft dabei, anzuzeigen, ob das Modell neue Beobachtungen genau vorhersagen kann. Für die Vorhersage von Ereignissen beträgt der Fehler der Fehlklassifikation durch Kreuzvalidierung etwa 11 %. Für die Vorhersage von Nichtereignissen beträgt der Fehlklassifizierungsfehler ca. 20 %. Insgesamt beträgt der Fehler der Fehlklassifikation durch Kreuzvalidierung etwa 15 %.

Die Fläche unter der ROC-Kurve, wenn die Anzahl der Bäume 46 beträgt, beträgt für die Trainingsdaten ungefähr 0,98 und für die Kreuzvalidierungsergebnisse ungefähr 0,90.

In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall machen ca. 60% der Daten ca. 90% der True Positives aus. Diese Differenz entspricht dem zusätzlichen Gain, der aus der Verwendung des Modells resultiert.

In diesem Beispiel zeigt das Lift-Diagramm einen großen Anstieg oberhalb der Referenzlinie, der nach etwa 50 % der Gesamtzahl schneller abnimmt.

Verwenden Sie die partiellen Abhängigkeitsdiagramme, um einen Einblick in die Auswirkungen der wichtigen Variablen oder Variablenpaare auf die angepassten Antwortwerte zu erhalten. Die angepassten Antwortwerte liegen auf der 1/2 Log-Skala. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Im partiellen Abhängigkeitsdiagramm des Brustschmerztyps ist beispielsweise die Wahrscheinlichkeit von 1/2 log mit dem Wert 3 am höchsten. Auswählen Diagramme bei einem Prädiktor oder Diagramme bei zwei Prädiktoren Erstellen von Diagrammen für andere Variablen