Beispiel für Bestes Modell ermitteln (binäre Antwort)

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Suche nach dem besten Modelltyp

Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.

Die Forscher wollen ein Modell finden, das möglichst genaue Vorhersagen macht. Die Forscher verwenden Bestes Modell ermitteln (binäre Antwort) um die Vorhersageleistung von 4 Arten von Modellen zu vergleichen: binäre logistische Regression, TreeNet®,Random Forests® und CART®. Die Forscher planen, die Art des Modells mit der besten Vorhersageleistung weiter zu untersuchen.

  1. Öffnen Sie die Beispieldaten HerzKrankheitBinarBestesModell.MTW.
  2. Wählen Sie Predictive Analytics-Modul > Automatisiertes maschinelles Lernen > Bestes Modell ermitteln (binäre Antwort) aus.
  3. Geben Sie im Feld Antwort die Spalte 'Herzkrankheiten' ein.
  4. Geben Sie im Feld Stetige Prädiktoren die Spalten Alter, 'Rest Blutdruck', Cholesterin, 'Max Herzfrequenz', und ' Old Peak' ein.
  5. Kategoriale PrädiktorenGeben Sie in Sex ein, ' Brust Schmerz Typ', 'Fasten BlutzuckerRest-EKG', ' ',Übung Angina' ' , Steigung'HauptblutgefäßeThal' und Thal.
  6. Klicken Sie auf OK.

Interpretieren der Ergebnisse

In der Tabelle Modellauswahl wird die Leistung der verschiedenen Modelltypen verglichen. Das Random Forests®-Modell hat den Mindestwert der durchschnittlichen –loglikelihood. Die folgenden Ergebnisse beziehen sich auf das beste Random Forests®-Modell.

Das Diagramm der Fehlklassifizierungsrate vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Die Fehlklassifizierungsrate liegt bei ca. 0,16.

Die Tabelle mit der Zusammenfassung des Modells zeigt, dass die durchschnittliche negative Log-Likelihood 0,39 beträgt.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „THAL“. Wenn der Beitrag der obersten Prädiktorvariablen, „THAL“, 100 % beträgt, hat die nächst wichtige Variable, „Hauptgefäße“, einen Beitrag von 98,9 %. Das heißt, dass „Hauptgefäße“ in diesem Klassifikationsmodell 98,9 % so wichtig wie „THAL“ ist.

Die Konfusionsmatrix veranschaulicht, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel liegt die Wahrscheinlichkeit, dass ein Ereignis korrekt prognostiziert wird, bei 87%. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis korrekt prognostiziert wird, beträgt 81 %.

Die Fehlklassifizierungsrate gibt an, ob das Modell neue Beobachtungen genau prognostizieren wird. Bei der Prognose von Ereignissen beträgt der Fehler bei der Fehlklassifikation im Test 13%. Bei der Prognose von Ereignissen beträgt der Fehler bei der Fehlklassifizierung 19 %. Insgesamt beträgt der Fehlklassifizierungsfehler für die Testdaten ca. 16%.

Die Fläche unter der ROC-Kurve für das Random Forests®-Modell beträgt ungefähr 0,90 für die Out-of-Bag-Daten.

Bestes Modell ermitteln (binäre Antwort): Herzkrankhei vs. Alter; Rest Blutdru; ...

Methode Ein Modell der schrittweisen logistischen Regression mit linearen Termen und Termen 2. Ordnung anpassen. 6 TreeNet®-Klassifikationsmodell(e) anpassen. 3 Random Forests®-Klassifikationsmodell(e) mit Bootstrap-Stichprobenumfang gleich dem Trainingsdatenumfang von 303 anpassen. Ein optimales CART®-Klassifikationsmodell anpassen. Das Modell mit der maximalen Log-Likelihood aus der Kreuzvalidierung mit 5 Faltungen auswählen. Gesamtzahl der Zeilen: 303 Für Modell der logistischen Regression verwendete Zeilen: 303 Für baumbasierte Modelle verwendete Zeilen: 303
Informationen zur binären Antwort Variable Klasse Anzahl % Herzkrankheiten 1 (Ereignis) 165 54,46 0 138 45,54 Alle 303 100,00

Modellauswahl

Bestes Modell Durchschnitt Fläche unter innerhalb des Typs -Log-Likelihood der ROC-Kurve Random Forests®* 0,3904 0,9048 TreeNet® 0,3907 0,9032 Logistische Regression 0,4671 0,9142 CART® 1,8072 0,7991 Bestes Modell innerhalb des Typs Fehlklassifizierungsrate Random Forests®* 0,1584 TreeNet® 0,1520 Logistische Regression 0,1518 CART® 0,2080 * Bestes Modell aller Modelltypen mit minimaler durchschnittlicher -Log-Likelihood. Die Ausgabe für das beste Modell folgt.
Hyperparameter für bestes Random Forests®-Modell Anzahl der Bootstrap-Stichproben 300 Stichprobenumfang Entspricht Umfang der Trainingsdaten von 303 Anzahl der für die Knotenteilung ausgewählten Prädiktoren Quadratwurzel der Gesamtanzahl der Prädiktoren = 3 Minimale interne Knotengröße 8

Fehlklassifizierungsrate vs. Anzahl der Bäume Plot

Zusammenfassung des Modells Prädiktoren gesamt 13 Wichtige Prädiktoren 13 Außerhalb des Statistiken Segments Durchschnittliche -Log-Likelihood 0,3904 Fläche unter der ROC-Kurve 0,9048 95%-KI (0,8706; 0,9389) Lift 1,7758 Fehlklassifizierungsrate 0,1584
Konfusionsmatrix Prognostizierte Klasse Tatsächliche (außerhalb des Segments) Klasse Anzahl 1 0 % Richtig 1 (Ereignis) 165 143 22 86,67 0 138 26 112 81,16 Alle 303 169 134 84,16 Außerhalb des Segments Statistiken (%) Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) 86,67 Falsch-Positiv-Rate (Fehler 1. Art) 18,84 Falsch-Negativ-Rate (Fehler 2. Art) 13,33 Richtig-Negativ-Rate (Spezifität) 81,16
Fehlklassifikation Tatsächliche Außerhalb des Segments Klasse Anzahl Fehlklassifiziert % Fehler 1 (Ereignis) 165 22 13,33 0 138 26 18,84 Alle 303 48 15,84

Grenzwertoptimierungskurve (ROC-Kurve)

Gain-Diagramm

Lift-Diagramm

Auswählen eines alternativen Modells

Die Forscher können sich Ergebnisse für andere Modelle aus der Suche nach dem besten Modell ansehen. Für ein TreeNet®-Modell können Sie aus einem Modell auswählen, das Teil der Suche war, oder Hyperparameter für ein anderes Modell angeben.

  1. Klicken Sie nach der Tabelle mit der Zusammenfassung des Modells auf Auswählen eines alternativen Modells.
  2. Wählen Sie im Feld Modelltyp die Option TreeNet® aus.
  3. Wählen Vorhandenes Modell auswählen Sie in das dritte Modell aus, das den besten Wert des minimalen Durchschnitts – loglikelihood aufwies.
  4. Klicken Sie auf Anzeigen der Ergebnisse.

Interpretieren der Ergebnisse

Für diese Analyse baut Minitab 300 Bäume auf, und die optimale Anzahl von Bäumen beträgt 46. Das Modell verwendet eine Lernrate von 0,1 und einen Teilstichprobenanteil von 0,5. Die maximale Anzahl der Endknoten pro Baum beträgt 6.

Das Diagramm der durchschnittlichen –Log-Likelihood vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Der optimale Wert für die Testdaten ist 0,3907, wenn die Anzahl der Bäume 46 beträgt.

TreeNet®-Klassifikation: Herzkrankhei vs Alter; Rest Blutdru; Cholesterin; ...

Zusammenfassung des Modells Prädiktoren gesamt 13 Wichtige Prädiktoren 13 Anzahl der aufgebauten Bäume 300 Optimale Anzahl von Bäumen 46 Statistiken Schulungen Test Durchschnittliche -Log-Likelihood 0,2088 0,3907 Fläche unter der ROC-Kurve 0,9842 0,9032 95%-KI (0,9721; 0,9964) (0,8683; 0,9381) Lift 1,8364 1,7744 Fehlklassifizierungsrate 0,0726 0,1520

Wenn die Anzahl der Bäume 46 beträgt, gibt die Modellzusammenfassungstabelle an, dass die durchschnittliche negative Protokollwahrscheinlichkeit ungefähr 0,21 für die Trainingsdaten und ungefähr 0,39 für die Testdaten beträgt.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der obersten Prädiktorvariablen, „Brustschmerztyp“, 100 % beträgt, hat die nächst wichtige Variable, „Hauptgefäße“, einen Beitrag von 95,8 %. Das heißt, dass „Hauptgefäße“ in diesem Modell 95,8% so wichtig wie „Brustschmerztyp“ ist.

TreeNet®-Klassifikation: Herzkrankhei vs Alter; Rest Blutdru; Cholesterin; ...

Konfusionsmatrix Prognostizierte Klasse Prognostizierte Klasse Tatsächliche (Schulungen) (Test) Klasse Anzahl 1 0 % Richtig 1 0 % Richtig 1 (Ereignis) 165 156 9 94,55 147 18 89,09 0 138 13 125 90,58 28 110 79,71 Alle 303 169 134 92,74 175 128 84,82 Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die Zeile 0,5 überschreitet.
Schulungen Statistiken (%) Test (%) Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) 94,55 89,09 Falsch-Positiv-Rate (Fehler 1. Art) 9,42 20,29 Falsch-Negativ-Rate (Fehler 2. Art) 5,45 10,91 Richtig-Negativ-Rate (Spezifität) 90,58 79,71

Die Konfusionsmatrix veranschaulicht, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel liegt die Wahrscheinlichkeit, dass ein Ereignis korrekt prognostiziert wird, bei 89%. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis korrekt prognostiziert wird, beträgt 80 %.

TreeNet®-Klassifikation: Herzkrankhei vs Alter; Rest Blutdru; Cholesterin; ...

Fehlklassifikation Tatsächliche Schulungen Test Klasse Anzahl Fehlklassifiziert % Fehler Fehlklassifiziert % Fehler 1 (Ereignis) 165 9 5,45 18 10,91 0 138 13 9,42 28 20,29 Alle 303 22 7,26 46 15,18 Die Zeile wird einer Ereignisklasse zugewiesen, wenn die Ereigniswahrscheinlichkeit für die Zeile 0,5 überschreitet.

Die Fehlklassifizierungsrate gibt an, ob das Modell neue Beobachtungen genau prognostizieren wird. Bei der Prognose von Ereignissen beträgt der Fehler bei der Fehlklassifikation im Test 11%. Bei der Prognose von Ereignissen beträgt der Fehler bei der Fehlklassifizierung 20 %. Insgesamt beträgt der Fehlklassifizierungsfehler für die Testdaten ca. 15%.

Die Fläche unter der ROC-Kurve bei einer Baumanzahl von 46 beträgt für die Trainingsdaten etwa 0,98 und für die Testdaten etwa 0,90.

In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall erklären etwa 60 % der Daten ungefähr 90 % der richtig Positiven. Diese Differenz entspricht dem zusätzlichen Gain, der aus der Verwendung des Modells resultiert.

In diesem Beispiel zeigt das Hebediagramm einen großen Anstieg über der Referenzlinie, der nach etwa 50 % der Gesamtanzahl schneller abnimmt.

Verwenden Sie die Diagramme der partiellen Abhängigkeit, um zu erfahren, wie sich die wichtigen Variablen oder Variablenpaare auf den prognostizierten Wert der Antwortvariablen auswirken. Die angepassten Ansprechwerte liegen auf der Skala 1:2 log. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Im Diagramm der partiellen Abhängigkeit für den Brustschmerztyp beispielsweise die 1/2 logarithmierten mit dem Wert 3 am höchsten. Klicken Sie auf Auswählen weiterer Prädiktoren zur Darstellung, um Diagramme für andere Variablen zu erstellen.