Methoden und Formeln für Regression der besten Teilmengen

Berechnungsverfahren

Bei der Regression der besten Teilmengen verwendet Minitab ein Verfahren namens Hamiltonpfad (auch als Hamiltonkreis bezeichnet), bei dem es sich um eine Methode zur Berechnung aller möglichen Teilmengen von Prädiktoren (jeweils eine Teilmenge pro Schritt) handelt. Das heißt, Minitab berechnet alle 2**m–1 Teilmengen in 2**m–1 Schritten, wobei m die Anzahl der Prädiktoren im Modell ist. Minitab wertet in jedem Schritt eine andere Teilmengenregression aus.

Jede Teilmenge im Hamiltonpfad unterscheidet sich von der vorangegangenen Teilmenge durch Hinzufügen oder Entfernen von genau einer Variablen. Der Sweep-Operator fügt mit jedem Schritt des Hamiltonianpfads eine Variable zur Regression hinzu bzw. entfernt sie daraus und berechnet für jede Teilmenge R2.

Regressionsgleichung

Für ein Modell mit mehreren Prädiktoren lautet die Gleichung:

y= β0 + β1x1 + ... + βkxk + ε

Die angepasste Gleichung lautet:

Bei der einfachen linearen Regression, die nur einen Prädiktor enthält, lautet das Modell:

y=ß0+ ß1x1

Mit Regressionsabschätzungen b0 für ß0und b1 für ß1ergibt sich die angepasste Gleichung:

Gleichungen mit einer kategorialen Variablen

Wenn Sie eine kategoriale Variable in ein Regressionsmodell einbeziehen, gibt es zwei Möglichkeiten, die Regressionsgleichung darzustellen:
  • Separate Gleichung jeder Menge kategorischer Prädiktorstufen
  • Einzelne Gleichung
Diese beiden Optionen sind gleichwertig. Angenommen, die Daten haben folgende Variablen:
C1
Die Antwortvariable
C2
Ein stetiger Prädiktor
C3
Eine kategorische Prädiktorvariable mit den Stufen Rot und Blau
Die separaten Gleichungen sind wie folgt:
  • Blau: C1 = 0,184 + 0,1964*C2
  • Rot: C1 = 0,011 + 0,1964*C2

Eine einzelne Gleichung verwendet eine Indikatorvariable, um die kategoriale Variable darzustellen.

C1 = 0,184 + 0,1964*C2 + 0,0*C3_Blau- 0,173*C3_Rot

In der Einzelgleichung ist C3_Blau gleich 1, wenn die Beobachtung blau ist, und sonst 0. C3_Rot gleich 1, wenn die Beobachtungen rot sind, und sonst 0. Für jede Gruppe wird die Indikatorvariable eingesetzt, um zu überprüfen, dass die einzelne Gleichung mit den beiden separaten Gleichungen übereinstimmt.
  • Blaue Beobachtung (C3_Blau = 1, C3_Rot = 0): C1 = 0,184 + 0,1964*C2 + 0,0*1 - 0,173*0 = 0,184 + 0,1964*C2
  • Rote Beobachtung (C3_Blau = 0, C3_Rot = 1: C1 = 0,084 + 0,1964*C2 + 0,0*0 - 0,173*1 = 0,011 + 0,1964*C2

Notation

BegriffBeschreibung
yAntwortvariable
xkK-te Trimester. Jeder Term kann ein einzelner Prädiktor, ein Polynomialterm oder ein Wechselwirkungsterm sein.
ßkk-te Populationsregressionskoeffizient
εFehlerterm, der einer Normalverteilung mit dem Mittelwert 0 folgt
bkSchätzung des k-ten Populationsregressionskoeffizienten
angepasste Antwortvariable

R-Qd

R2 wird auch als Determinationskoeffizient bezeichnet.

Formel

Notation

BegriffBeschreibung
yi i-ter beobachteter Wert der Antwortvariablen
Mittelwert der Antwortvariablen
i-ter angepasster Wert der Antwortvariablen

R-Qd(kor)

Notation

BegriffBeschreibung
MSMittel der Quadrate
SSSumme der Quadrate
DFFreiheitsgrade

PRESS

Bewertet die Prognosefähigkeiten des Modells und wird wie folgt berechnet:

Notation

BegriffBeschreibung
nAnzahl der Beobachtungen
eii-tes Residuum
hi

i-tes Diagonalelement von

X (X' X)-1X'

R-Qd (prog)

Obwohl die Berechnungen für R2 (prog) negative Werte ergeben können, zeigt Minitab in derartigen Fällen null an.

Notation

BegriffBeschreibung
yi i-ter beobachteter Wert der Antwortvariablen
Mittelwert der Antwortvariablen
n Anzahl der Beobachtungen
ei i-tes Residuum
hi i-tes Diagonalelement von X(X'X)–1X'
X Designmatrix

Mallows-Cp

Notation

BegriffBeschreibung
SSEpSumme der quadrierten Fehler für das untersuchte Modell
MSEmmittleres Fehlerquadrat für das Modell mit allen potenziellen Termen
nAnzahl der Beobachtungen
pAnzahl der Terme im Modell, einschließlich der Konstanten

S

Notation

BegriffBeschreibung
MSEMittleres Fehlerquadrat

Log-Likelihood

Minitab verwendet für nicht gewichtete Analysen folgende Gleichung:
Für Analysen, bei denen die Beobachtungen gewichtet werden, verwendet Minitab die folgende Gleichung:

Beobachtungen mit einer Gewichtung von 0 sind in der Analyse nicht enthalten.

Notation

BegriffBeschreibung
nAnzahl der Beobachtungen
RSumme der Quadrate für Fehler für das Modell
wiGewichtung für die i-te Beobachtung

Akaikes korrigiertes Informationskriterium (AICc)

Das AICc wird nicht berechnet, wenn .

Notation

BegriffBeschreibung
nAnzahl der Beobachtungen
pAnzahl der Koeffizienten im Modell einschließlich der Konstante

Bayessches Informationskriterium (BIC)

Notation

BegriffBeschreibung
pAnzahl der Koeffizienten im Modell einschließlich der Konstante
nAnzahl der Beobachtungen

Bedingungszahl

Notation

BegriffBeschreibung
CBedingungszahl
λMaximum maximaler Eigenwert aus der Korrelationsmatrix der Terme im Modell, ausschließlich des Schnittpunkts
λMinimum minimaler Eigenwert aus der Korrelationsmatrix der Terme im Modell, ausschließlich des Schnittpunkts