Interpretieren der wichtigsten Ergebnisse für Regression der besten Teilmengen

Bei der Regression der besten Teilmengen wählt Minitab die beiden Modelle mit den höchsten R2-Werten aus, die einen Prädiktor, zwei Prädiktoren usw. enthalten. Die in die einzelnen Modellen eingebunden Prädiktoren lassen sich daran erkennen, dass die entsprechenden Spalten in der Ausgabetabelle mit einem „X“ markiert sind.

Verwenden Sie die Statistiken zur Güte der Anpassung, um zu bestimmen, welches Modell die beste Anpassung an Ihre Daten bietet. Bevor Sie sich endgültig für ein Modell entscheiden, sollten Sie die Residuendiagramme und andere Bewertungsmaße untersuchen, um sicherzustellen, dass das Modell die Annahmen der Analyse erfüllt.

R-Qd

Je höher das R2, desto besser ist das Modell an die Daten angepasst. Das R2 liegt immer zwischen 0 % und 100 %.

Der Wert von R2 nimmt beim Einbinden zusätzlicher Prädiktoren in das Modell stets zu. Das beste Modell mit fünf Prädiktoren weist beispielsweise immer ein R2 auf, das mindestens so hoch wie das des besten Modells mit vier Prädiktoren ist. Daher ist R2 am nützlichsten, wenn Sie Modelle derselben Größe vergleichen.

R-Qd(kor)

Verwenden Sie das korrigierte R2, wenn Sie Modelle vergleichen möchten, die eine unterschiedliche Anzahl von Prädiktoren enthalten. R2 nimmt stets zu, wenn Sie einen zusätzlichen Prädiktor in das Modell aufnehmen, selbst wenn damit keine tatsächliche Verbesserung des Modells verbunden ist. Der Wert des korrigierten R2 berücksichtigt die Anzahl der Prädiktoren im Modell, so dass Ihnen das Auswählen des richtigen Modells erleichtert wird.

R-Qd(prog)

Verwenden Sie das prognostizierte R2, um zu ermitteln, wie genau das Modell Werte der Antwortvariablen für neue Beobachtungen prognostiziert. Modelle mit einem höheren prognostizierten R2 zeichnen sich durch eine bessere Prognosefähigkeit aus.

Ein prognostiziertes R2, das wesentlich kleiner als R2 ist, kann auf eine übermäßige Anpassung des Modells hinweisen. Ein übermäßig angepasstes Modell liegt vor, wenn Sie Terme für Effekte hinzufügen, die in der Grundgesamtheit unbedeutend sind. Das Modell wird somit an die Stichprobendaten angepasst und ist daher möglicherweise beim Aufstellen von Prognosen für die Grundgesamtheit nicht nützlich.

Das prognostizierte R2 kann zudem beim Vergleichen von Modellen nützlicher als das korrigierte R2 sein, da der Wert mit Beobachtungen berechnet wird, die in der Modellberechnung nicht enthalten sind.

Mallows-Cp
Mit Mallows-Cp wird die Genauigkeit und die Verzerrung des vollständigen Modells mit Modellen mit den besten Teilmengen von Prädiktoren verglichen. Ein Mallows-Cp, das annähernd gleich der Anzahl der Prädiktoren plus der Konstanten ist, weist darauf hin, dass das Modell relativ genaue und unverzerrte Schätzwerte liefert.
S

Verwenden Sie S, um zu ermitteln, wie genau das Modell die Antwortvariable beschreibt. Verwenden Sie S anstelle von R2, um die Anpassung von Modellen zu vergleichen, die keine Konstante enthalten.

S wird in der Maßeinheit der Antwortvariablen ausgedrückt und stellt den Abstand der Datenwerte von den angepassten Werten in Standardabweichungen dar. Je niedriger der Wert von S, desto genauer beschreibt das Modell die Antwortvariable. Ein niedriger Wert von S allein bedeutet jedoch nicht zwangsläufig, dass das Modell die Modellannahmen erfüllt. Prüfen Sie die Annahmen anhand der Residuendiagramme.

Untersuchen Sie die folgenden Punkte, wenn Sie die R2-Werte interpretieren:
  • Kleine Stichproben ermöglichen keinen genauen Schätzwert für die Stärke der Beziehung zwischen der Antwortvariablen und den Prädiktoren. Wenn R2 genauer sein muss, sollten Sie einen größeren Stichprobenumfang (im Allgemeinen 40 oder mehr) wählen.

  • R2 ist nur eines der Maß für die Güte der Anpassung des Modells an die Daten. Selbst wenn ein Modell ein hohes R2 aufweist, sollten Sie die Residuendiagramme untersuchen, um sich zu vergewissern, dass das Modell die Modellannahmen erfüllt.

Regression der besten Teilmengen: Wärmefluss vs. Isolierung; Ost; Süd; ...

Antwortvariable ist Wärmefluss I s T o a l g i e e s r N z u O S o e n s ü r i Variablen R-Qd R-Qd(kor) R-Qd(prog) Mallows-Cp S g t d d t 1 72,1 71,0 66,9 38,5 12,328 X 1 39,4 37,1 26,3 112,7 18,154 X 2 85,9 84,8 81,4 9,1 8,9321 X X 2 82,0 80,6 74,2 17,8 10,076 X X 3 87,4 85,9 79,0 7,6 8,5978 X X X 3 86,5 84,9 81,4 9,7 8,9110 X X X 4 89,1 87,3 80,6 5,8 8,1698 X X X X 4 88,0 86,0 79,3 8,2 8,5550 X X X X 5 89,9 87,7 78,8 6,0 8,0390 X X X X X
Wichtigste Ergebnisse: R-Qd, R-Qd(kor), R-Qd(prog), Mallows-Cp, S

In diesen Ergebnissen sind mehrere Modelle vorhanden, die weiter untersucht werden sollten. Das Modell mit allen 5 Prädiktoren weist den kleinsten Wert von S und den größten Wert des korrigierten R2 auf, nämlich ungefähr 8 und 88. Ein Modell mit 2 Prädiktoren und ein Modell mit 3 Prädiktoren weisen beide den höchsten Wert des prognostizierten R2 auf, der ungefähr 81,4 % beträgt. Bevor Sie sich endgültig für ein Modell entscheiden, untersuchen Sie die Modelle mit Hilfe von Residuendiagrammen und anderen Bewertungsmaßen auf Verletzungen der Annahmen für die Regression.

Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien