Dieser Befehl ist mit Predictive Analytics-Modul. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.
Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.
Die Forscher wollen ein Modell finden, das möglichst genaue Vorhersagen trifft. Die Forscher verwenden Bestes Modell ermitteln (binäre Antwort) um die prädiktive Leistung von 4 Modelltypen zu vergleichen: binäre logistische Regression, TreeNet®, Random Forests® und CART.® Die Forscher planen, den Modelltyp mit der besten Vorhersageleistung weiter zu untersuchen.
In der Tabelle Modellauswahl wird die Leistung der verschiedenen Modelltypen verglichen. Das Random Forests-Modell® hat den Minimalwert der durchschnittlichen –log-Likelihood. Die folgenden Ergebnisse beziehen sich auf das beste Random Forests-Modell®.
Der Plot Fehlklassifikationsrate vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der angebauten Bäume. Die Fehlklassifizierungsrate liegt bei ca. 0,16.
Die Modellübersichtstabelle zeigt, dass die durchschnittliche negative logLikelihood etwa 0,39 beträgt.
Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „THAL“. Wenn der Beitrag der obersten Prädiktorvariablen, „THAL“, 100 % beträgt, hat die nächst wichtige Variable, „Hauptgefäße“, einen Beitrag von 98,9 %. Das heißt, dass „Hauptgefäße“ in diesem Klassifikationsmodell 98,9 % so wichtig wie „THAL“ ist.
Die Konfusionsmatrix zeigt, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel beträgt die Wahrscheinlichkeit, dass ein Ereignis richtig vorhergesagt wird, etwa 87 %. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis richtig vorhergesagt wird, beträgt ca. 81 %.
Die Fehlklassifizierungsrate gibt an, ob das Modell neue Beobachtungen genau vorhersagen kann. Für die Vorhersage von Ereignissen beträgt der Out-of-Bag-Fehlklassifikationsfehler etwa 13 %. Für die Vorhersage von Nichtereignissen beträgt der Fehlklassifizierungsfehler ca. 19 %. Insgesamt beträgt der Fehlklassifizierungsfehler für die Testdaten etwa 16 %.
Die Fläche unter der ROC-Kurve für das Random Forests-Modell® beträgt etwa 0,90 für die Out-of-Bag-Daten.
| Ein Modell der schrittweisen logistischen Regression mit linearen Termen und Termen 2. Ordnung anpassen. |
|---|
| 6 TreeNet®-Klassifikationsmodell(e) anpassen. |
| 3 Random Forests®-Klassifikationsmodell(e) mit Bootstrap-Stichprobenumfang gleich dem Trainingsdatenumfang von 303 anpassen. |
| Ein optimales CART®-Klassifikationsmodell anpassen. |
| Das Modell mit der maximalen Log-Likelihood aus der Kreuzvalidierung mit 5 Faltungen auswählen. |
| Gesamtzahl der Zeilen: 303 |
| Für Modell der logistischen Regression verwendete Zeilen: 303 |
| Für baumbasierte Modelle verwendete Zeilen: 303 |
| Variable | Klasse | Anzahl | % |
|---|---|---|---|
| Herzkrankheiten | 1 (Ereignis) | 165 | 54,46 |
| 0 | 138 | 45,54 | |
| Alle | 303 | 100,00 |
| Bestes Modell innerhalb des Typs | Durchschnitt -Log-Likelihood | Fläche unter der ROC-Kurve | Fehlklassifizierungsrate |
|---|---|---|---|
| Random Forests®* | 0,3904 | 0,9048 | 0,1584 |
| TreeNet® | 0,3907 | 0,9032 | 0,1520 |
| Logistische Regression | 0,4671 | 0,9142 | 0,1518 |
| CART® | 1,8072 | 0,7991 | 0,2080 |
| Anzahl der Bootstrap-Stichproben | 300 |
|---|---|
| Stichprobenumfang | Entspricht Umfang der Trainingsdaten von 303 |
| Anzahl der für die Knotenteilung ausgewählten Prädiktoren | Quadratwurzel der Gesamtanzahl der Prädiktoren = 3 |
| Minimale interne Knotengröße | 8 |
| Prädiktoren gesamt | 13 |
|---|---|
| Wichtige Prädiktoren | 13 |
| Statistiken | Außerhalb des Segments |
|---|---|
| Durchschnittliche -Log-Likelihood | 0,3904 |
| Fläche unter der ROC-Kurve | 0,9048 |
| 95%-KI | (0,8706; 0,9389) |
| Lift | 1,7758 |
| Fehlklassifizierungsrate | 0,1584 |
| Prognostizierte Klasse (außerhalb des Segments) | ||||
|---|---|---|---|---|
| Tatsächliche Klasse | ||||
| Anzahl | 1 | 0 | % Richtig | |
| 1 (Ereignis) | 165 | 143 | 22 | 86,67 |
| 0 | 138 | 26 | 112 | 81,16 |
| Alle | 303 | 169 | 134 | 84,16 |
| Statistiken | Außerhalb des Segments (%) |
|---|---|
| Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) | 86,67 |
| Falsch-Positiv-Rate (Fehler 1. Art) | 18,84 |
| Falsch-Negativ-Rate (Fehler 2. Art) | 13,33 |
| Richtig-Negativ-Rate (Spezifität) | 81,16 |
| Tatsächliche Klasse | Außerhalb des Segments | ||
|---|---|---|---|
| Anzahl | Fehlklassifiziert | % Fehler | |
| 1 (Ereignis) | 165 | 22 | 13,33 |
| 0 | 138 | 26 | 18,84 |
| Alle | 303 | 48 | 15,84 |

Die Forscher können sich Ergebnisse für andere Modelle aus der Suche nach dem besten Modell ansehen. Für ein TreeNet® -Modell können Sie aus einem Modell auswählen, das Teil der Suche war, oder Hyperparameter für ein anderes Modell angeben.
Diese Analyse erzeugt 300 Bäume, und die optimale Anzahl von Bäumen beträgt 46. Das Modell verwendet eine Lernrate von 0,1 und einen Teilstichprobenbruch von 0,5. Die maximale Anzahl an Terminalknoten pro Baum beträgt 6.
Das Diagramm der durchschnittlichen –Log-Likelihood vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Der optimale Wert aus der Kreuzvalidierung beträgt 0,3907, wenn die Anzahl der Bäume 46 beträgt.
| Prädiktoren gesamt | 13 |
|---|---|
| Wichtige Prädiktoren | 13 |
| Anzahl der aufgebauten Bäume | 300 |
| Optimale Anzahl von Bäumen | 46 |
| Statistiken | Trainings | Kreuzvalidierung |
|---|---|---|
| Durchschnittliche -Log-Likelihood | 0,2088 | 0,3907 |
| Fläche unter der ROC-Kurve | 0,9842 | 0,9032 |
| 95%-KI | (0,9721; 0,9964) | (0,8683; 0,9381) |
| Lift | 1,8364 | 1,7744 |
| Fehlklassifizierungsrate | 0,0726 | 0,1520 |
Wenn die Anzahl der Bäume 46 beträgt, zeigt die Modellzusammenfassungstabelle an, dass die durchschnittliche negative Loglikelihood für die Trainingsdaten ungefähr 0,21 und für die Kreuzvalidierungsergebnisse ungefähr 0,39 beträgt.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist „Brustschmerztyp“. Wenn der Beitrag der obersten Prädiktorvariablen, des Brustschmerztyps, 100 % beträgt, dann hat die nächste wichtige Variable, Thal, einen Beitrag von 95,8 %. Das bedeutet, dass Thal in diesem Klassifikationsmodell zu 95,8 % so wichtig ist wie der Brustschmerztyp.
| Prognostizierte Klasse (Trainings) | Prognostizierte Klasse (Kreuzvalidierung) | ||||||
|---|---|---|---|---|---|---|---|
| Tatsächliche Klasse | |||||||
| Anzahl | 1 | 0 | % Richtig | 1 | 0 | % Richtig | |
| 1 (Ereignis) | 165 | 156 | 9 | 94,55 | 147 | 18 | 89,09 |
| 0 | 138 | 13 | 125 | 90,58 | 28 | 110 | 79,71 |
| Alle | 303 | 169 | 134 | 92,74 | 175 | 128 | 84,82 |
| Statistiken | Trainings (%) | Kreuzvalidierung (%) |
|---|---|---|
| Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) | 94,55 | 89,09 |
| Falsch-Positiv-Rate (Fehler 1. Art) | 9,42 | 20,29 |
| Falsch-Negativ-Rate (Fehler 2. Art) | 5,45 | 10,91 |
| Richtig-Negativ-Rate (Spezifität) | 90,58 | 79,71 |
Die Konfusionsmatrix zeigt, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel beträgt die Wahrscheinlichkeit, dass ein Ereignis richtig vorhergesagt wird, etwa 89 %. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis richtig vorhergesagt wird, beträgt ca. 80 %.
| Tatsächliche Klasse | Trainings | Kreuzvalidierung | |||
|---|---|---|---|---|---|
| Anzahl | Fehlklassifiziert | % Fehler | Fehlklassifiziert | % Fehler | |
| 1 (Ereignis) | 165 | 9 | 5,45 | 18 | 10,91 |
| 0 | 138 | 13 | 9,42 | 28 | 20,29 |
| Alle | 303 | 22 | 7,26 | 46 | 15,18 |
Die Fehlklassifizierungsrate hilft dabei, anzuzeigen, ob das Modell neue Beobachtungen genau vorhersagen kann. Für die Vorhersage von Ereignissen beträgt der Fehler der Fehlklassifikation durch Kreuzvalidierung etwa 11 %. Für die Vorhersage von Nichtereignissen beträgt der Fehlklassifizierungsfehler ca. 20 %. Insgesamt beträgt der Fehler der Fehlklassifikation durch Kreuzvalidierung etwa 15 %.
Die Fläche unter der ROC-Kurve, wenn die Anzahl der Bäume 46 beträgt, beträgt für die Trainingsdaten ungefähr 0,98 und für die Kreuzvalidierungsergebnisse ungefähr 0,90.
In diesem Beispiel zeigt das Gain-Diagramm einen starken Anstieg über die Referenzlinie und flacht dann ab. In diesem Fall machen ca. 60% der Daten ca. 90% der True Positives aus. Diese Differenz entspricht dem zusätzlichen Gain, der aus der Verwendung des Modells resultiert.
In diesem Beispiel zeigt das Lift-Diagramm einen großen Anstieg oberhalb der Referenzlinie, der nach etwa 50 % der Gesamtzahl schneller abnimmt.
Verwenden Sie die partiellen Abhängigkeitsdiagramme, um einen Einblick in die Auswirkungen der wichtigen Variablen oder Variablenpaare auf die angepassten Antwortwerte zu erhalten. Die angepassten Antwortwerte liegen auf der 1/2 Log-Skala. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.
Im partiellen Abhängigkeitsdiagramm des Brustschmerztyps ist beispielsweise die Wahrscheinlichkeit von 1/2 log mit dem Wert 3 am höchsten. Auswählen oder Erstellen von Diagrammen für andere Variablen