Beispiel für Bestes Modell ermitteln (binäre Antwort)

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Suche nach dem besten Modelltyp

Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.

Die Forscher wollen ein Modell finden, das möglichst genaue Vorhersagen trifft. Die Forscher verwenden Bestes Modell ermitteln (binäre Antwort) um die Vorhersageleistung von 4 Arten von Modellen zu vergleichen: binäre logistische Regression, TreeNet®, Random Forests® und CART®. Die Forscher planen, den Modelltyp mit der besten Vorhersageleistung weiter zu untersuchen.

  1. Öffnen Sie die Beispieldaten HerzKrankheitBinarBestesModell.MTW.
  2. Wählen Sie Predictive Analytics-Modul > Automatisiertes maschinelles Lernen > Bestes Modell ermitteln (binäre Antwort) aus.
  3. Geben Sie im Feld Antwort die Spalte 'Herzkrankheiten' ein.
  4. Geben Sie in Stetige Prädiktoren, 'Rest Blutdruck', Cholesterin, 'Max Herzfrequenz' und ' Old PeakAlter ein.
  5. Geben Kategoriale PrädiktorenSie Sexin , ' Brust Schmerz Typ', '', 'Fasten Blutzucker', 'Rest-EKG', '', Steigung,Übung Angina'Hauptblutgefäße' und Thal ein.
  6. Klicken Sie auf OK.

Interpretieren der Ergebnisse

In der Tabelle Modellauswahl wird die Leistung der verschiedenen Modelltypen verglichen. Das Modell "Random Forests"® hat den Minimalwert der durchschnittlichen –log-Wahrscheinlichkeit. Die folgenden Ergebnisse beziehen sich auf das beste Random Forests®-Modell.

Das Diagramm der Fehlklassifizierungsrate vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Die Fehlklassifizierungsrate liegt bei ca. 0,16.

Die Modellzusammenfassungstabelle zeigt, dass die durchschnittliche negative Logwahrscheinlichkeit etwa 0,39 beträgt.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „THAL“. Wenn der Beitrag der obersten Prädiktorvariablen, „THAL“, 100 % beträgt, hat die nächst wichtige Variable, „Hauptgefäße“, einen Beitrag von 98,9%. Das heißt, dass „Hauptgefäße“ in diesem Klassifikationsmodell 98,9% so wichtig wie „THAL“ ist.

Die Konfusionsmatrix zeigt, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel beträgt die Wahrscheinlichkeit, dass ein Ereignis richtig vorhergesagt wird, etwa 87 %. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis richtig vorhergesagt wird, beträgt ca. 81 %.

Die Fehlklassifizierungsrate gibt an, ob das Modell neue Beobachtungen genau vorhersagen kann. Für die Vorhersage von Ereignissen beträgt der Fehler bei der Fehlklassifizierung außerhalb des Beutels ca. 13 %. Für die Vorhersage von Nichtereignissen beträgt der Fehlklassifizierungsfehler ca. 19 %. Insgesamt beträgt der Fehlklassifizierungsfehler für die Testdaten etwa 16 %.

Die Fläche unter der ROC-Kurve für das Random Forests®-Modell beträgt ungefähr 0,90 für die Out-of-Bag-Daten.

Bestes Modell ermitteln (binäre Antwort): Herzkrankheiten vs. Alter; Rest Blutdruck; Cholesterin; Max Herzfrequenz; Old Peak; Sex; Brust Schmerz Typ; Fasten Blutzucker; Rest-EKG; Übung Angina; Steigung; Hauptblutgefäße; Thal

Methode

Ein Modell der schrittweisen logistischen Regression mit linearen Termen und Termen 2. Ordnung anpassen.
6 TreeNet®-Klassifikationsmodell(e) anpassen.
3 Random Forests®-Klassifikationsmodell(e) mit Bootstrap-Stichprobenumfang gleich dem Trainingsdatenumfang von 303 anpassen.
Ein optimales CART®-Klassifikationsmodell anpassen.
Das Modell mit der maximalen Log-Likelihood aus der Kreuzvalidierung mit 5 Faltungen auswählen.
Gesamtzahl der Zeilen: 303
Für Modell der logistischen Regression verwendete Zeilen: 303
Für baumbasierte Modelle verwendete Zeilen: 303

Informationen zur binären Antwort

VariableKlasseAnzahl%
Herzkrankheiten1 (Ereignis)16554,46
  013845,54
  Alle303100,00
Bestes Modell
innerhalb des Typs
Durchschnitt
-Log-Likelihood
Fläche unter
der ROC-Kurve
Fehlklassifizierungsrate
Random Forests®*0,39040,90480,1584
TreeNet®0,39070,90320,1520
Logistische Regression0,46710,91420,1518
CART®1,80720,79910,2080
* Bestes Modell aller Modelltypen mit minimaler durchschnittlicher -Log-Likelihood. Die
     Ausgabe für das beste Modell folgt.

Hyperparameter für bestes Random Forests®-Modell

Anzahl der Bootstrap-Stichproben300
    StichprobenumfangEntspricht Umfang der Trainingsdaten von 303
Anzahl der für die Knotenteilung ausgewählten PrädiktorenQuadratwurzel der Gesamtanzahl der Prädiktoren = 3
Minimale interne Knotengröße8

Zusammenfassung des Modells

Prädiktoren gesamt13
Wichtige Prädiktoren13
StatistikenAußerhalb des
Segments
Durchschnittliche -Log-Likelihood0,3904
Fläche unter der ROC-Kurve0,9048
        95%-KI(0,8706; 0,9389)
Lift1,7758
Fehlklassifizierungsrate0,1584

Konfusionsmatrix


Prognostizierte Klasse
(außerhalb des Segments)
Tatsächliche
Klasse
Anzahl10% Richtig
1 (Ereignis)1651432286,67
01382611281,16
Alle30316913484,16
StatistikenAußerhalb
des
Segments
(%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)86,67
Falsch-Positiv-Rate (Fehler 1. Art)18,84
Falsch-Negativ-Rate (Fehler 2. Art)13,33
Richtig-Negativ-Rate (Spezifität)81,16

Fehlklassifikation

Tatsächliche
Klasse
Außerhalb des Segments
AnzahlFehlklassifiziert% Fehler
1 (Ereignis)1652213,33
01382618,84
Alle3034815,84

Auswählen eines alternativen Modells

Die Forscher können sich Ergebnisse für andere Modelle aus der Suche nach dem besten Modell ansehen. Für ein TreeNet® -Modell können Sie aus einem Modell auswählen, das Teil der Suche war, oder Hyperparameter für ein anderes Modell angeben.

  1. Wählen Sie Alternatives Modell auswählen aus.
  2. Wählen Sie im Feld Modelltyp die Option TreeNet® aus.
  3. Wählen Sie in Vorhandenes Modell auswählen das dritte Modell aus, das den besten Wert für die minimale durchschnittliche Loglikelihood aufweist.
  4. Klicken Sie auf Anzeigen der Ergebnisse.

Interpretieren der Ergebnisse

Diese Analyse wächst 300 Bäume und die optimale Anzahl von Bäumen ist 46. Das Modell verwendet eine Lernrate von 0,1 und einen Teilstichprobenanteil von 0,5. Die maximale Anzahl von Endknoten pro Baum beträgt 6.

Das Diagramm der durchschnittlichen –Log-Likelihood vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Der optimale Wert für die Testdaten ist 0,3907, wenn die Anzahl der Bäume 46 beträgt.

Zusammenfassung des Modells

Prädiktoren gesamt13
Wichtige Prädiktoren13
Anzahl der aufgebauten Bäume300
Optimale Anzahl von Bäumen46
StatistikenTrainingsTest
Durchschnittliche -Log-Likelihood0,20880,3907
Fläche unter der ROC-Kurve0,98420,9032
        95%-KI(0,9721; 0,9964)(0,8683; 0,9381)
Lift1,83641,7744
Fehlklassifizierungsrate0,07260,1520

Wenn die Anzahl der Bäume 46 beträgt, gibt die Modellzusammenfassungstabelle an, dass die durchschnittliche negative Logwahrscheinlichkeit für die Trainingsdaten ungefähr 0,21 und für die Testdaten ungefähr 0,39 beträgt.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der obersten Prädiktorvariablen, des Brustschmerztyps, 100 % beträgt, dann hat die nächste wichtige Variable, Thal, einen Beitrag von 95,8 %. Das bedeutet, dass Thal in diesem Klassifikationsmodell zu 95,8 % so wichtig ist wie der Brustschmerztyp.

Konfusionsmatrix



Prognostizierte Klasse
(Trainings)
Prognostizierte Klasse
(Test)
Tatsächliche
Klasse

Anzahl10% Richtig10% Richtig
1 (Ereignis)165156994,551471889,09
01381312590,582811079,71
Alle30316913492,7417512884,82
Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die
     Zeile 0,5 überschreitet.
     
StatistikenTrainings
(%)
Test (%)
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe)94,5589,09
Falsch-Positiv-Rate (Fehler 1. Art)9,4220,29
Falsch-Negativ-Rate (Fehler 2. Art)5,4510,91
Richtig-Negativ-Rate (Spezifität)90,5879,71

Die Konfusionsmatrix zeigt, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel beträgt die Wahrscheinlichkeit, dass ein Ereignis richtig vorhergesagt wird, etwa 89%. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis richtig vorhergesagt wird, beträgt ca. 80%.

Fehlklassifikation

Tatsächliche
Klasse

TrainingsTest
AnzahlFehlklassifiziert% FehlerFehlklassifiziert% Fehler
1 (Ereignis)16595,451810,91
0138139,422820,29
Alle303227,264615,18
Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die
     Zeile 0,5 überschreitet.

Die Fehlklassifizierungsrate hilft dabei, anzuzeigen, ob das Modell neue Beobachtungen genau vorhersagen kann. Für die Vorhersage von Ereignissen beträgt der Fehler bei der Fehlklassifizierung des Tests ca. 11 %. Für die Vorhersage von Nichtereignissen beträgt der Fehlklassifizierungsfehler ca. 20%. Insgesamt beträgt der Fehlklassifizierungsfehler für die Testdaten etwa 15%.

Die Fläche unter der ROC-Kurve bei einer Baumanzahl von 46 beträgt für die Trainingsdaten etwa 0,98 und für die Testdaten etwa 0,90.

In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall machen ca. 60% der Daten ca. 90% der True Positives aus. Diese Differenz entspricht dem zusätzlichen Gain, der aus der Verwendung des Modells resultiert.

In diesem Beispiel zeigt das Lift-Diagramm einen starken Anstieg über der Referenzlinie, der nach etwa 50 % der Gesamtanzahl schneller abnimmt.

Verwenden Sie die partiellen Abhängigkeitsdiagramme, um einen Einblick in die Auswirkungen der wichtigen Variablen oder Variablenpaare auf die angepassten Antwortwerte zu erhalten. Die angepassten Antwortwerte liegen auf der 1/2 Log-Skala. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Im partiellen Abhängigkeitsdiagramm des Brustschmerztyps ist beispielsweise die Wahrscheinlichkeit von 1/2 log mit dem Wert 3 am höchsten. Auswählen Diagramme bei einem Prädiktor oder Diagramme bei zwei Prädiktoren Erstellen von Diagrammen für andere Variablen