Beispiel für Bestes Modell ermitteln (stetige Antwort)

Hinweis

Dieser Befehl ist mit Predictive Analytics-Modul verfügbar. Klicken Sie hier, um weitere Informationen zum Aktivieren des Moduls zu erhalten.

Suche nach dem besten Modelltyp

Forscher für ein Gesundheitssystem sammeln Daten aus ihren regionalen medizinischen Kliniken. Das Forschungsteam interessiert sich insbesondere für Daten aus ärztlichen Erstuntersuchungen kranker Patienten. Am Ende der Erstuntersuchungen weisen die Ärzte jedem Patienten eine Punktzahl für die Schwere seiner Erkrankung zu. Die Forscher wollen einen kurzen Fragebogen entwickeln, um die kranksten Patienten vor der Untersuchung durch einen Arzt zu priorisieren. Durch Rücksprache mit Fachexperten und eine erste Untersuchung der Daten wählt das Team 8 Variablen aus, um den Schweregrad vorherzusagen. Die Forscher wollen den besten Modelltyp bestimmen, um den Schweregrad vorherzusagen, bevor sie das Modell weiter verfeinern.

Die Forscher verwenden Bestes Modell ermitteln (stetige Antwort) sie, um die Vorhersageleistung von 5 Arten von Modellen zu vergleichen: multiple Regression, TreeNet®, Random Forests® CART® und MARS®. Das Team plant, den Modelltyp mit der besten Vorhersageleistung weiter zu untersuchen.

  1. Öffnen Sie die Beispieldaten Krankheit.mtw.
  2. Wählen Sie Predictive Analytics-Modul > Automatisiertes maschinelles Lernen > Bestes Modell ermitteln (stetige Antwort) aus.
  3. Geben Sie im Feld Antwort die Spalte 'Schweregrad der Erkrankung' ein.
  4. Geben Sie im Feld Stetige Prädiktoren die Spalte 'Anzahl der Symptome jetzt' ein.
  5. Geben Sie in Kategoriale Prädiktoren'Hohe Schleimproduktion'-''Beschränkungen für Aktivitätenein.
  6. Klicken Sie auf OK.

Interpretieren der Ergebnisse

In der Tabelle Modellauswahl wird die Leistung der Modelltypen verglichen. Das multiple Regressionsmodell hat den Maximalwert R2. Die folgenden Ergebnisse beziehen sich auf das beste multiple Regressionsmodell.

Um zu bestimmen, ob die Assoziation zwischen der Antwortvariablen und jedem Term im Modell statistisch signifikant ist, vergleichen Sie den p-Wert für den Term mit dem Signifikanzniveau, um die Nullhypothese auszuwerten. Die Nullhypothese besagt, dass keine Assoziation zwischen dem Term und der Antwortvariablen besteht. In der Regel ist ein Signifikanzniveau (als α oder Alpha bezeichnet) von 0,05 gut geeignet. Ein Signifikanzniveau von 0,05 bedeutet ein Risiko, dass auf eine vorhandene Assoziation geschlossen wird, während tatsächlich keine vorhanden ist, von 5 %. In diesen Ergebnissen haben zwei der Interaktionsterme p-Werte größer als 0,05: Schwere Kurzatmigkeit*Starke Kopfschmerzen und Schwere Schlafstörungen*Starke Kopfschmerzen. Wenn die Forscher andere multiple Regressionsmodelle untersuchen, werden sie Modellleistungsmetriken und Restdiagramme verwenden, um die Auswirkungen der Einbeziehung dieser Begriffe in das Modell zu untersuchen.

Die Modellübersichtstabelle zeigt, dass das Training R2 und der Test R2 beide etwa 91% betragen. Der mittlere quadratische Fehler (RMSE) des Teststamms, der angibt, wie weit die Datenwerte von den angepassten Werten abweichen, beträgt ungefähr 4. Da der RMSE auf der Skala des Krankheitswerts klein ist, sind die Forscher optimistisch, dass eine kleine Anzahl von Fragen genug Informationen ist, um Patienten zu priorisieren.

Die Tabelle der Anpassungen und Diagnosen für ungewöhnliche Informationen zeigt Datenpunkte, die der vorgeschlagenen Regressionsgleichung nicht gut entsprechen. Dies sind die Fits und Diagnosen aus dem vollständigen Datensatz.

Der Buchstabe R kennzeichnet einen Punkt mit einem großen Rest. Untersuchen Sie die ungewöhnlichen Datenpunkte, um die Prädiktorwerte zu ermitteln, bei denen das Modell möglicherweise nicht gut passend ist. Der Buchstabe X kennzeichnet einen Punkt mit hohem Hebel. Punkte mit hoher Hebelwirkung haben ungewöhnliche Prädiktorkombinationen im Vergleich zum Rest des Datensatzes.

Große Residuen und hohe Leverage Points sind potenziell einflussreiche Punkte. Das Einbinden oder Ausschließen eines einflussreichen Punkts könnte beispielsweise ändern, ob ein Koeffizient statistisch signifikant ist. Wenn Sie eine einflussreiche Beobachtung feststellen, ermitteln Sie, ob es sich bei der Beobachtung um einen Dateneingabe- oder Messfehler handelt. Wenn es sich bei der Beobachtung nicht um einen Fehler handelt, bestimmen Sie, wie stark die Beobachtung die Ergebnisse beeinflusst. Wenn die Forscher das Modell weiter erforschen, werden sie das Modell mit und ohne die Beobachtungen anpassen. Anschließend vergleichen sie die Koeffizienten, p-Werte, R2und andere Modellinformationen. Wenn sich das Modell nach Entfernen der einflussreichen Beobachtung signifikant ändert, untersuchen Sie das Modell eingehender, um festzustellen, ob Sie das Modell falsch angegeben haben. Möglicherweise müssen Sie weitere Daten erfassen, um das Problem zu beheben.

Das Streudiagramm der angepassten Krankheitswerte im Vergleich zu den tatsächlichen Krankheitswerten zeigt die Beziehung zwischen den angepassten und den tatsächlichen Werten sowohl für die Trainings- als auch für die Testdaten. Die Punkte liegen ungefähr nahe der Referenzlinie von y=x, was darauf hinweist, dass das Modell gut zu den Daten passt.

Methode

Ein Regressionsmodell mit linearen Termen und Termen 2. Ordnung anpassen.
6 TreeNet®-Regressionsmodell(e) mit der Verlustfunktion „Quadriert“ anpassen.
3 Random Forests®-Regressionsmodell(e) mit Bootstrap-Stichprobenumfang gleich dem Trainingsdatenumfang von 1546 anpassen.
Ein optimales CART®-Regressionsmodell anpassen.
Ein optimales MARS®-Regressionsmodell anpassen.
Das Modell mit dem maximalen R-Quadrat aus der Kreuzvalidierung mit 5 Faltungen auswählen.
Gesamtzahl der Zeilen: 1546
Für Regressionsmodell verwendete Zeilen: 1546
Für baumbasierte Modelle verwendete Zeilen: 1546

Informationen zur Antwortvariablen

MittelwertStdAbwMinimumQ1MedianQ3Maximum
31,011014,0820019,0530,9540,4876,19
Bestes Modell
innerhalb des Typs
R-Quadrat
(%)
Mittlere
absolute
Abweichung
Multiple Regression*91,233,1011
MARS®91,053,1604
TreeNet®90,903,1613
Random Forests®89,933,3248
CART®86,113,9369
* Bestes Modell aller Modelltypen mit maximalem R-Quadrat. Die Ausgabe für das beste Modell
     folgt.

Vorwärtsauswahl der Terme mit Validierung für bestes Modell der multiplen Regression

Ausgewählte Terme: Anzahl der Symptome jetzt; Hohe Schleimproduktion; Schwere Kurzatmigkeit;
     Starke Kopfschmerzen; Schwere Schlafstörungen; Generell sehr schlecht fühlen; Beschränkungen
     für Aktivitäten; Anzahl der Symptome jetzt*Schwere Kurzatmigkeit; Anzahl der Symptome
     jetzt*Starke Brustschmerzen; Schwere Kurzatmigkeit*Schwere Schlafstörungen; Generell sehr
     schlecht fühlen*Beschränkungen für Aktivitäten
 

Regressionsgleichung

Schweregrad der Erkrankung=1,241 + 2,5386 Anzahl der Symptome jetzt
+ 0,0 Hohe Schleimproduktion_0 + 3,900 Hohe Schleimproduktion_1
+ 0,0 Schwere Kurzatmigkeit_0 + 0,94 Schwere Kurzatmigkeit_1
+ 0,0 Starke Kopfschmerzen_0 + 4,094 Starke Kopfschmerzen_1
+ 0,0 Schwere Schlafstörungen_0
+ 3,884 Schwere Schlafstörungen_1
+ 0,0 Generell sehr schlecht fühlen_0
+ 3,473 Generell sehr schlecht fühlen_1
+ 0,0 Beschränkungen für Aktivitäten_0
+ 3,140 Beschränkungen für Aktivitäten_1
+ 0,0 Anzahl der Symptome jetzt*Schwere Kurzatmigkeit_0
+ 0,373 Anzahl der Symptome jetzt*Schwere Kurzatmigkeit_1
+ 0,0 Anzahl der Symptome jetzt*Starke Brustschmerzen_0
+ 0,4765 Anzahl der Symptome jetzt*Starke Brustschmerzen_1
+ 0,0 Schwere Kurzatmigkeit*Schwere Schlafstörungen_0 0
+ 0,0 Schwere Kurzatmigkeit*Schwere Schlafstörungen_0 1
+ 0,0 Schwere Kurzatmigkeit*Schwere Schlafstörungen_1 0
+ 1,337 Schwere Kurzatmigkeit*Schwere Schlafstörungen_1 1
+ 0,0 Generell sehr schlecht fühlen*Beschränkungen für Aktivität
en_0 0
+ 0,0 Generell sehr schlecht fühlen*Beschränkungen für Aktivität
en_0 1
+ 0,0 Generell sehr schlecht fühlen*Beschränkungen für Aktivität
en_1 0
+ 1,372 Generell sehr schlecht fühlen*Beschränkungen für Aktivit
äten_1 1

Koeffizienten

TermKoefSE Koeft-Wertp-Wert
Konstante1,2410,3853,220,001
Anzahl der Symptome jetzt2,53860,059342,810,000
Hohe Schleimproduktion       
  13,9000,22517,350,000
Schwere Kurzatmigkeit       
  10,941,180,800,424
Starke Kopfschmerzen       
  14,0940,25316,180,000
Schwere Schlafstörungen       
  13,8840,28413,690,000
Generell sehr schlecht fühlen       
  13,4730,34310,140,000
Beschränkungen für Aktivitäten       
  13,1400,4247,400,000
Anzahl der Symptome jetzt*Schwere Kurzatmigkeit       
  10,3730,1332,810,005
Anzahl der Symptome jetzt*Starke Brustschmerzen       
  10,47650,031215,260,000
Schwere Kurzatmigkeit*Schwere Schlafstörungen       
  1 11,3370,5282,530,011
Generell sehr schlecht fühlen*Beschränkungen für Aktivitäten       
  1 11,3720,5272,610,009
TermVIF
Konstante 
Anzahl der Symptome jetzt1,95
Hohe Schleimproduktion 
  11,10
Schwere Kurzatmigkeit 
  123,23
Starke Kopfschmerzen 
  11,25
Schwere Schlafstörungen 
  11,73
Generell sehr schlecht fühlen 
  12,62
Beschränkungen für Aktivitäten 
  13,98
Anzahl der Symptome jetzt*Schwere Kurzatmigkeit 
  126,80
Anzahl der Symptome jetzt*Starke Brustschmerzen 
  11,25
Schwere Kurzatmigkeit*Schwere Schlafstörungen 
  1 13,26
Generell sehr schlecht fühlen*Beschränkungen für Aktivitäten 
  1 15,73

Zusammenfassung des Modells

StatistikenTrainingsTest
R-Quadrat91,35%91,23%
Wurzel des mittleren quadrierten Fehlers (RMSE)4,15624,1679
Mittlerer quadrierter Fehler (MSE)17,274117,3714
Mittlere abs. Abweichung (MAD)3,07983,1011
     
R-Quadrat (kor)91,29% 
R-Quadrat (prog)  91,19%

Varianzanalyse

QuelleDFKor SSKor MS
Regression1127988125443,7
  Anzahl der Symptome jetzt13165531654,8
  Hohe Schleimproduktion152025201,8
  Schwere Kurzatmigkeit11111,1
  Starke Kopfschmerzen145204520,0
  Schwere Schlafstörungen132393238,8
  Generell sehr schlecht fühlen117761775,6
  Beschränkungen für Aktivitäten1945945,4
  Anzahl der Symptome jetzt*Schwere Kurzatmigkeit1136136,4
  Anzahl der Symptome jetzt*Starke Brustschmerzen140234023,4
  Schwere Kurzatmigkeit*Schwere Schlafstörungen1111110,7
  Generell sehr schlecht fühlen*Beschränkungen für Aktivitäten1117117,3
Fehler15342649817,3
  Fehlende Anpassung484924719,1
  Reiner Fehler10501725116,4
Gesamt1545306379 
QuelleF-Wertp-Wert
Regression1472,940,000
  Anzahl der Symptome jetzt1832,510,000
  Hohe Schleimproduktion301,140,000
  Schwere Kurzatmigkeit0,640,424
  Starke Kopfschmerzen261,660,000
  Schwere Schlafstörungen187,500,000
  Generell sehr schlecht fühlen102,790,000
  Beschränkungen für Aktivitäten54,730,000
  Anzahl der Symptome jetzt*Schwere Kurzatmigkeit7,900,005
  Anzahl der Symptome jetzt*Starke Brustschmerzen232,920,000
  Schwere Kurzatmigkeit*Schwere Schlafstörungen6,410,011
  Generell sehr schlecht fühlen*Beschränkungen für Aktivitäten6,790,009
Fehler   
  Fehlende Anpassung1,160,025
  Reiner Fehler   
Gesamt   

Anpassungen und Bewertung für ungewöhnliche Beobachtungen

BeobSchweregrad
der
Erkrankung
AnpassungResidStd. Resid
1166,67056,7579,9132,40R 
1352,38041,17711,2032,71R 
1659,52048,60410,9162,64R 
3350,00060,657-10,657-2,57R 
4864,29055,4168,8742,14R 
5261,90053,3698,5312,06R 
5450,00041,5988,4022,03R 
5650,00058,328-8,328-2,02R 
5838,10046,485-8,385-2,03R 
10659,52049,02810,4922,53R 
11459,52047,16012,3602,99R 
12869,05058,32810,7222,59R 
14450,00040,4719,5292,30R 
17347,62056,757-9,137-2,21R 
17442,86034,0008,8602,14R 
19142,86052,051-9,191-2,23R 
19859,52048,41111,1092,68R 
20273,81064,0469,7642,36R 
20547,62037,55910,0612,43R 
21335,71034,9700,7400,18  X
21716,67019,053-2,383-0,58  X
23947,62058,328-10,708-2,59R 
24171,43066,3115,1191,25  X
24314,29024,088-9,798-2,36R 
30450,00041,1308,8702,14R 
30714,29010,9203,3700,83  X
35264,29051,25413,0363,15R 
36938,10049,275-11,175-2,70R 
39116,67032,073-15,403-3,72R 
3920,00011,395-11,395-2,75R 
3950,00013,934-13,934-3,36R 
42440,48052,504-12,024-2,90R 
42547,62034,59713,0233,16R 
47447,62038,5389,0822,21R 
47940,48030,8969,5842,31R 
48916,67025,023-8,353-2,02R 
49130,95024,3486,6021,61  X
49357,14044,33912,8013,09R 
49535,71025,48010,2302,47R 
50938,10026,69611,4042,77R 
52073,81058,32815,4823,75R 
53738,10028,3589,7422,35R 
55014,29024,458-10,168-2,45R 
58342,86053,369-10,509-2,54R 
69419,05021,817-2,767-0,68  X
72059,52065,602-6,082-1,49  X
72240,48032,0668,4142,03R 
80230,95042,586-11,636-2,81R 
80530,95039,868-8,918-2,16R 
81440,48032,0738,4072,03R 
82361,90048,14813,7523,33R 
83333,33044,054-10,724-2,60R 
85938,10049,275-11,175-2,70R 
86847,62037,7899,8312,38R 
89130,95019,94511,0052,66R 
89328,57048,860-20,290-4,92R 
90545,24055,416-10,176-2,46R 
92454,76056,019-1,259-0,31  X
97764,29053,10711,1832,72R 
98357,14047,6839,4572,29R 
98850,00044,5015,4991,34  X
99373,81064,0469,7642,36R 
99733,33024,4588,8722,14R 
100354,76045,1289,6322,33R 
102533,33047,705-14,375-3,49R 
105957,14048,6638,4772,05R 
110547,62037,31910,3012,49R 
115059,52044,33915,1813,67R 
116052,38040,05112,3292,97R 
116330,95041,598-10,648-2,57R 
116569,05056,75712,2932,97R 
116959,52049,27510,2452,48R 
119842,86051,516-8,656-2,09R 
120776,19063,53412,6563,07R 
121326,19040,278-14,088-3,41R 
122840,48050,571-10,091-2,45R 
123559,52050,1759,3452,26R 
123757,14048,2398,9012,15R 
124664,29055,4168,8742,14R 
126245,24035,9579,2832,24R 
126357,14043,95113,1893,18R 
128233,33036,011-2,681-0,65  X
128445,24056,564-11,324-2,74R 
128547,62060,657-13,037-3,15R 
130326,19036,567-10,377-2,51R 
130535,71045,499-9,789-2,36R 
131130,95040,089-9,139-2,21R 
134526,19025,1051,0850,26  X
135342,86053,175-10,315-2,49R 
136526,19017,8348,3562,01R 
137747,62035,22212,3983,00R 
138069,05055,41613,6343,29R 
138450,00038,49611,5042,78R 
141426,19035,345-9,155-2,21R 
150261,90050,19511,7052,84R 
152638,10025,45012,6503,05R 
153514,29024,088-9,798-2,36R 
154438,10029,1658,9352,16R 
154850,00040,4559,5452,31R 
156538,10042,846-4,746-1,16  X
158266,67055,43711,2332,72R 
R  Großes Residuum
X  Ungewöhnliches X

Auswählen eines alternativen Modells

Die Forscher beschließen, die Ergebnisse für das beste TreeNet-Modell® zu untersuchen.

  1. Klicken Sie in den Ergebnissen für , nach der schrittweisen Auswahl von Begriffen für Bestes Modell ermitteln (stetige Antwort)das beste multiple Regressionsmodell auf Auswählen eines alternativen Modells.
  2. Wählen Sie im Feld Modelltyp die Option TreeNet® aus.
  3. Wählen Sie in Vorhandenes Modell auswählendas sechste Modell aus, das den besten Wert von R2hat.
  4. Klicken Sie auf Anzeigen der Ergebnisse.

Interpretieren der Ergebnisse

Diese Analyse wächst 300 Bäume und die optimale Anzahl von Bäumen ist 63. Das Modell verwendet eine Lernrate von 0,1 und einen Teilstichprobenanteil von 0,7. Die maximale Anzahl von Terminalknoten beträgt 6.

Methode

VerlustfunktionQuadrierter Fehler
Kriterium für Auswahl der optimalen Anzahl von BäumenMaximales R-Quadrat
ModellvalidierungKreuzvalidierung mit 5 Faltungen
Trainingsrate0,1
Teilstichbruchfraktionschefin0,7
Maximale Anzahl von Endknoten pro Baum6
Minimale Endknotengröße3
Anzahl der für die Knotenteilung ausgewählten PrädiktorenGesamtanzahl der Prädiktoren = 8
Verwendete Zeilen1546
Nicht verwendete Zeilen70

Informationen zur Antwortvariablen

MittelwertStdAbwMinimumQ1MedianQ3Maximum
31,011014,0820019,0530,9540,4876,19

Das Diagramm von R-Quadrat vs. Anzahl der Bäume zeigt die gesamte Kurve über die Anzahl der aufgebauten Bäume. Der optimale Wert für die Testdaten liegt bei etwa 91%, wenn die Anzahl der Bäume 63 beträgt.

Zusammenfassung des Modells

Prädiktoren gesamt8
Wichtige Prädiktoren8
Anzahl der aufgebauten Bäume300
Optimale Anzahl von Bäumen63
StatistikenSchulungenTest
R-Quadrat91,93%90,90%
Wurzel des mittleren quadrierten Fehlers (RMSE)3,99924,2471
Mittlerer quadrierter Fehler (MSE)15,993218,0375
Mittlere abs. Abweichung (MAD)2,99433,1613
Mittlerer absoluter prozentualer Fehler (MAPE)0,10880,1130

Die Modellübersichtstabelle zeigt, dass der R2-Wert bei einer Anzahl von Bäumen von 63 für die Trainingsdaten ca. 92% und für die Testdaten ca. 91% beträgt.

Das Diagramm „Relative Variablenwichtigkeit“ zeigt die Prädiktoren in der Reihenfolge ihrer Auswirkungen auf die Modellverbesserung, wenn Teilungen anhand eines Prädiktors über die Abfolge der Bäume hinweg vorgenommen werden. Die wichtigste Prädiktorvariable ist Anzahl der Symptome jetzt. Wenn der Beitrag der obersten Prädiktorvariablen 100% beträgt, Anzahl der Symptome jetzt, dann hat die nächste wichtige Variable, Beschränkungen für Aktivitäten, einen Beitrag von 44,4%. Beschränkungen für Aktivitäten Dies bedeutet, dass 44,4% so wichtig ist wie Anzahl der Symptome jetzt in diesem Regressionsmodell.

Das Streudiagramm der angepassten Krankheitswerte im Vergleich zu den tatsächlichen Krankheitswerten zeigt die Beziehung zwischen den angepassten und den tatsächlichen Werten sowohl für die Trainings- als auch für die Testdaten. Die Punkte liegen ungefähr nahe der Referenzlinie von y=x, was darauf hinweist, dass das Modell gut zu den Daten passt.

Verwenden Sie die partiellen Abhängigkeitsdiagramme, um einen Einblick in die Auswirkungen der wichtigen Variablen oder Variablenpaare auf die angepassten Antwortwerte zu erhalten. Die Diagramme der partiellen Abhängigkeit zeigen, ob die Beziehung zwischen der Antwortvariablen und einer Variablen linear, monoton oder komplexer ist.

Das erste Diagramm veranschaulicht die Beziehung zwischen den Krankheitswerten und der Anzahl der Symptome, die der Patient jetzt hat. Sie können den Mauszeiger über einzelne Datenpunkte bewegen, um die spezifischen x- und y-Werte anzuzeigen. Zum Beispiel ist der höchste Punkt auf der rechten Seite der Grafik, wenn der Patient 13 Symptome hat und der angepasste Krankheitswert ungefähr 45 beträgt.

Die zweite Grafik zeigt, dass der angepasste Krankheitswert um etwa 5 Punkte ansteigt, wenn Patienten Einschränkungen ihrer normalen Aktivitäten melden.

Die dritte Grafik zeigt, dass der angepasste Krankheitswert um etwa 5 Punkte ansteigt, wenn Patienten berichten, dass sie sich im Allgemeinen sehr schlecht fühlen.

Die vierte Grafik zeigt, dass der angepasste Krankheitswert um etwa 4 Punkte ansteigt, wenn Patienten über schwere Kurzatmigkeit berichten.

Das letzte Diagramm zeigt, wie der angepasste Krankheitswert für eine Reihe von Symptomen davon abhängt, ob der Patient auch Einschränkungen seiner normalen Aktivitäten hat. Für die gleiche Anzahl von Symptomen haben Patienten, die auch Einschränkungen ihrer normalen Aktivitäten melden, höhere angepasste Krankheitswerte.