Dieser Befehl ist mit dem Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.
Ein Forscherteam erfasst und veröffentlicht detaillierte Informationen zu Faktoren, die Herzerkrankungen beeinflussen. Variablen sind Alter, Geschlecht, Cholesterinspiegel, Maximalpuls und viele weitere. Dieses Beispiel basiert auf einem öffentlichen Datensatz, der detaillierte Informationen über Herzerkrankungen liefert. Die Originaldaten stammen von der Website archive.ics.uci.edu.
Nach der ersten Untersuchung mit CART® Klassifikation zur Identifizierung der wichtigen Prädiktoren verwenden die Forscher sowohl TreeNet®-Klassifikation als auch Random Forests®-Klassifikation, um intensivere Modelle aus demselben Datensatz zu erstellen. Die Forscher vergleichen die Tabelle mit der Zusammenfassung des Modells und das ROC-Diagramm aus den Ergebnissen, um zu bewerten, welches Modell ein besseres Prognoseergebnis liefert. Ergebnisse aus den anderen Analysen finden Sie unter Beispiel für CART® Klassifikation und Beispiel für Random Forests®-Klassifikation.
Für diese Analyse baut Minitab 300 Bäume auf, und die optimale Anzahl von Bäumen beträgt 298. Da die optimale Anzahl von Bäumen nahe an der maximalen Anzahl von Bäumen liegt, die das Modell aufbaut, wiederholen die Forscher die Analyse mit mehr Bäumen.
Prädiktoren gesamt | 13 |
---|---|
Wichtige Prädiktoren | 13 |
Anzahl der aufgebauten Bäume | 300 |
Optimale Anzahl von Bäumen | 299 |
Statistiken | Trainings | Test |
---|---|---|
Durchschnittliche -Log-Likelihood | 0,2551 | 0,4015 |
Fläche unter der ROC-Kurve | 0,9795 | 0,9034 |
95%-KI | (0,9661; 0,9929) | (0,8690; 0,9378) |
Lift | 2,1799 | 2,1804 |
Fehlklassifizierungsrate | 0,0924 | 0,1815 |
Für diese Analyse wurden 500 Bäume aufgebaut, und die optimale Anzahl von Bäumen beträgt 351. Das beste Modell verwendet eine Trainingsrate von 0,01, verwendet eine Teilstichproben-Fraktion von 0,5 und 6 als maximale Anzahl von Endknoten.
Kriterium für Auswahl der optimalen Anzahl von Bäumen | Maximale Log-Likelihood |
---|---|
Modellvalidierung | Kreuzvalidierung mit 5 Faltungen |
Trainingsrate | 0,01 |
Auswahlmethode für Teilstichprobe | Vollständig zufällig |
Teilstichprobenfraktion | 0,5 |
Maximale Anzahl von Endknoten pro Baum | 6 |
Minimale Endknotengröße | 3 |
Anzahl der für die Knotenteilung ausgewählten Prädiktoren | Gesamtanzahl der Prädiktoren = 13 |
Verwendete Zeilen | 303 |
Variable | Klasse | Anzahl | % |
---|---|---|---|
Herzkrankheiten | Ja (Ereignis) | 139 | 45,87 |
Nein | 164 | 54,13 | |
Alle | 303 | 100,00 |
Kriterium für Auswahl der optimalen Anzahl von Bäumen | Maximale Log-Likelihood |
---|---|
Modellvalidierung | Kreuzvalidierung mit 5 Faltungen |
Trainingsrate | 0,001; 0,01; 0,1 |
Teilstichprobenfraktion | 0,5; 0,7 |
Maximale Anzahl von Endknoten pro Baum | 6 |
Minimale Endknotengröße | 3 |
Anzahl der für die Knotenteilung ausgewählten Prädiktoren | Gesamtanzahl der Prädiktoren = 13 |
Verwendete Zeilen | 303 |
Variable | Klasse | Anzahl | % |
---|---|---|---|
Herzkrankheiten | Ja (Ereignis) | 139 | 45,87 |
Nein | 164 | 54,13 | |
Alle | 303 | 100,00 |
Modell | Optimale Anzahl von Bäumen | Durchschnitt -Log-Likelihood | Fläche unter der ROC-Kurve | Fehlklassifizierungsrate | Trainingsrate |
---|---|---|---|---|---|
1 | 500 | 0,546913 | 0,901055 | 0,184590 | 0,001 |
2* | 322 | 0,400220 | 0,903593 | 0,174863 | 0,010 |
3 | 28 | 0,414673 | 0,896988 | 0,184645 | 0,100 |
4 | 500 | 0,549594 | 0,895998 | 0,200929 | 0,001 |
5 | 296 | 0,403255 | 0,901858 | 0,184699 | 0,010 |
6 | 30 | 0,415474 | 0,895325 | 0,201202 | 0,100 |
Modell | Teilstichprobenfraktion | Maximale Anzahl von Endknoten |
---|---|---|
1 | 0,5 | 6 |
2* | 0,5 | 6 |
3 | 0,5 | 6 |
4 | 0,7 | 6 |
5 | 0,7 | 6 |
6 | 0,7 | 6 |
Prädiktoren gesamt | 13 |
---|---|
Wichtige Prädiktoren | 13 |
Anzahl der aufgebauten Bäume | 500 |
Optimale Anzahl von Bäumen | 322 |
Statistiken | Trainings | Test |
---|---|---|
Durchschnittliche -Log-Likelihood | 0,2449 | 0,4002 |
Fläche unter der ROC-Kurve | 0,9807 | 0,9036 |
95%-KI | (0,9678; 0,9935) | (0,8691; 0,9381) |
Lift | 2,1799 | 2,1804 |
Fehlklassifizierungsrate | 0,0858 | 0,1749 |
Prädiktoren gesamt | 13 |
---|---|
Wichtige Prädiktoren | 13 |
Statistiken | Außerhalb des Segments |
---|---|
Durchschnittliche -Log-Likelihood | 0,4004 |
Fläche unter der ROC-Kurve | 0,9028 |
95%-KI | (0,8693; 0,9363) |
Lift | 2,1079 |
Fehlklassifizierungsrate | 0,1848 |
Die Tabelle mit der Zusammenfassung des Modells zeigt, dass die durchschnittliche negative Log-Likelihood, wenn die Anzahl der Bäume 351 beträgt, für die Trainingsdaten ungefähr 0,23 und für die Testdaten ungefähr 0,39 beträgt. Diese Statistiken zeigen ein ähnliches Modell, wie es von Minitab Random Forests® erstellt wird. Auch die Fehlklassifizierungsraten sind ähnlich.
Prognostizierte Klasse (Trainings) | Prognostizierte Klasse (Test) | ||||||
---|---|---|---|---|---|---|---|
Tatsächliche Klasse | |||||||
Anzahl | Ja | Nein | % Richtig | Ja | Nein | % Richtig | |
Ja (Ereignis) | 139 | 121 | 18 | 87,05 | 107 | 32 | 76,98 |
Nein | 164 | 8 | 156 | 95,12 | 21 | 143 | 87,20 |
Alle | 303 | 129 | 174 | 91,42 | 128 | 175 | 82,51 |
Statistiken | Trainings (%) | Test (%) |
---|---|---|
Richtig-Positiv-Rate (Empfindlichkeit oder Trennschärfe) | 87,05 | 76,98 |
Falsch-Positiv-Rate (Fehler 1. Art) | 4,88 | 12,80 |
Falsch-Negativ-Rate (Fehler 2. Art) | 12,95 | 23,02 |
Richtig-Negativ-Rate (Spezifität) | 95,12 | 87,20 |
Die Konfusionsmatrix veranschaulicht, wie gut das Modell die Klassen korrekt trennt. In diesem Beispiel liegt die Wahrscheinlichkeit, dass ein Ereignis korrekt prognostiziert wird, bei 79,14 %. Die Wahrscheinlichkeit, dass ein Nicht-Ereignis korrekt prognostiziert wird, beträgt 85,37 %.
Tatsächliche Klasse | Trainings | Test | |||
---|---|---|---|---|---|
Anzahl | Fehlklassifiziert | % Fehler | Fehlklassifiziert | % Fehler | |
Ja (Ereignis) | 139 | 18 | 12,95 | 32 | 23,02 |
Nein | 164 | 8 | 4,88 | 21 | 12,80 |
Alle | 303 | 26 | 8,58 | 53 | 17,49 |
Die Fehlklassifizierungsrate gibt an, ob das Modell neue Beobachtungen genau prognostizieren wird. Bei der Prognose von Ereignissen beträgt der Fehler bei der Fehlklassifikation im Test 20,86%. Bei der Prognose von Nicht-Ereignissen beträgt der Fehler bei der Fehlklassifikation 14,63% und insgesamt 17,49%.