Interpretieren der wichtigsten Ergebnisse für Regression der besten Teilmengen

Bei der Regression der besten Teilmengen wählt Minitab die beiden Modelle mit den höchsten R2-Werten aus, die einen Prädiktor, zwei Prädiktoren usw. enthalten. Die in die einzelnen Modellen eingebunden Prädiktoren lassen sich daran erkennen, dass die entsprechenden Spalten in der Ausgabetabelle mit einem „X“ markiert sind.

Verwenden Sie die Statistiken zur Güte der Anpassung, um zu bestimmen, welches Modell die beste Anpassung an Ihre Daten bietet. Bevor Sie sich endgültig für ein Modell entscheiden, sollten Sie die Residuendiagramme und andere Bewertungsmaße untersuchen, um sicherzustellen, dass das Modell die Annahmen der Analyse erfüllt.

R-Qd

Je höher das R2, desto besser ist das Modell an die Daten angepasst. Das R2 liegt immer zwischen 0 % und 100 %.

Der Wert von R2 nimmt beim Einbinden zusätzlicher Prädiktoren in das Modell stets zu. Das beste Modell mit fünf Prädiktoren weist beispielsweise immer ein R2 auf, das mindestens so hoch wie das des besten Modells mit vier Prädiktoren ist. Daher ist R2 am nützlichsten, wenn Sie Modelle derselben Größe vergleichen.

R-Qd(kor)

Verwenden Sie das korrigierte R2, wenn Sie Modelle vergleichen möchten, die eine unterschiedliche Anzahl von Prädiktoren enthalten. R2 nimmt stets zu, wenn Sie einen zusätzlichen Prädiktor in das Modell aufnehmen, selbst wenn damit keine tatsächliche Verbesserung des Modells verbunden ist. Der Wert des korrigierten R2 berücksichtigt die Anzahl der Prädiktoren im Modell, so dass Ihnen das Auswählen des richtigen Modells erleichtert wird.

R-Qd(prog)

Verwenden Sie das prognostizierte R2, um zu ermitteln, wie genau das Modell Werte der Antwortvariablen für neue Beobachtungen prognostiziert.Modelle mit einem höheren prognostizierten R2 zeichnen sich durch eine bessere Prognosefähigkeit aus.

Ein prognostiziertes R2, das wesentlich kleiner als R2 ist, kann auf eine übermäßige Anpassung des Modells hinweisen. Ein übermäßig angepasstes Modell liegt vor, wenn Sie Terme für Effekte hinzufügen, die in der Grundgesamtheit unbedeutend sind. Das Modell wird somit an die Stichprobendaten angepasst und ist daher möglicherweise beim Aufstellen von Prognosen für die Grundgesamtheit nicht nützlich.

Das prognostizierte R2 kann zudem beim Vergleichen von Modellen nützlicher als das korrigierte R2 sein, da der Wert mit Beobachtungen berechnet wird, die in der Modellberechnung nicht enthalten sind.

Mallows-Cp
Mit Mallows-Cp wird die Genauigkeit und die Verzerrung des vollständigen Modells mit Modellen mit den besten Teilmengen von Prädiktoren verglichen. Ein Mallows-Cp, das annähernd gleich der Anzahl der Prädiktoren plus der Konstanten ist, weist darauf hin, dass das Modell relativ genaue und unverzerrte Schätzwerte liefert.
S

Verwenden Sie S, um zu ermitteln, wie genau das Modell die Antwortvariable beschreibt. Verwenden Sie S anstelle von R2, um die Anpassung von Modellen zu vergleichen, die keine Konstante enthalten.

S wird in der Maßeinheit der Antwortvariablen ausgedrückt und stellt den Abstand der Datenwerte von den angepassten Werten dar. Je niedriger der Wert von S, desto genauer beschreibt das Modell die Antwortvariable. Ein niedriger Wert von S allein bedeutet jedoch nicht zwangsläufig, dass das Modell die Modellannahmen erfüllt. Prüfen Sie die Annahmen anhand der Residuendiagramme.

Untersuchen Sie die folgenden Punkte, wenn Sie die R2-Werte interpretieren:
  • Kleine Stichproben ermöglichen keinen genauen Schätzwert für die Stärke der Beziehung zwischen der Antwortvariablen und den Prädiktoren. Wenn z. B. das R2 genauer sein muss, sollten Sie einen größeren Stichprobenumfang (im Allgemeinen 40 oder mehr) wählen.

  • Statistiken für die Güte der Anpassung sind nur eines der Maße für die Güte der Anpassung des Modells an die Daten. Selbst wenn ein Modell einen erwünschten Wert aufweist, sollten Sie die Residuendiagramme untersuchen, um sich zu vergewissern, dass das Modell die Modellannahmen erfüllt.

Antwortvariable ist Wärmefluss

VariablenR-QdR-Qd(kor)R-Qd(prog)Mallows-CpSI
s
o
l
i
e
r
u
n
g
O
s
t
S
ü
d
N
o
r
d
T
a
g
e
s
z
e
i
t
172,171,066,938,512,328      X 
139,437,126,3112,718,154X       
285,984,881,49,18,9321    XX 
282,080,674,217,810,076      XX
387,485,979,07,68,5978  XXX 
386,584,981,49,78,9110X  XX 
489,187,380,65,88,1698XXXX 
488,086,079,38,28,5550X  XXX
589,987,778,86,08,0390XXXXX
Wichtigste Ergebnisse: R-Qd, R-Qd(kor), R-Qd(prog), Mallows-Cp, S

In diesen Ergebnissen sind mehrere Modelle vorhanden, die weiter untersucht werden sollten. Das Modell mit allen 5 Prädiktoren weist den kleinsten Wert von S und den größten Wert des korrigierten R2 auf, nämlich ungefähr 8 und 88. Ein Modell mit 2 Prädiktoren und ein Modell mit 3 Prädiktoren weisen beide den höchsten Wert des prognostizierten R2 auf, der ungefähr 81,4 % beträgt. Bevor Sie sich endgültig für ein Modell entscheiden, untersuchen Sie die Modelle mit Hilfe von Residuendiagrammen und anderen Bewertungsmaßen auf Verletzungen der Annahmen für die Regression.