Methoden und Formeln für Regression der besten Teilmengen

Berechnungsverfahren

Bei der Regression der besten Teilmengen verwendet Minitab ein Verfahren namens Hamiltonpfad (auch als Hamiltonkreis bezeichnet), bei dem es sich um eine Methode zur Berechnung aller möglichen Teilmengen von Prädiktoren (jeweils eine Teilmenge pro Schritt) handelt. Das heißt, Minitab berechnet alle 2**m–1 Teilmengen in 2**m–1 Schritten, wobei m die Anzahl der Prädiktoren im Modell ist. Minitab wertet in jedem Schritt eine andere Teilmengenregression aus.

Jede Teilmenge im Hamiltonpfad unterscheidet sich von der vorangegangenen Teilmenge durch Hinzufügen oder Entfernen von genau einer Variablen. Der Sweep-Operator fügt mit jedem Schritt des Hamiltonianpfads eine Variable zur Regression hinzu bzw. entfernt sie daraus und berechnet für jede Teilmenge R2.

Regressionsgleichung

Für ein Modell mit mehreren Prädiktoren lautet die Gleichung:

y = β0 + β1x1 + … + βkxk + ε

Die angepasste Gleichung lautet:

Bei der einfachen linearen Regression, die nur einen Prädiktor enthält, lautet das Modell:

y=ß0+ ß1x1+ε

Bei Verwendung der Regressionsschätzwerte b0 für ß0 und b1 für ß1 lautet die angepasste Gleichung:

Notation

BegriffBeschreibung
yAntwortvariable
xkk-ter Term. Jeder Term kann ein einzelner Prädiktor, ein Polynomialterm oder ein Wechselwirkungsterm sein.
ßkk-ter Regressionskoeffizient der Grundgesamtheit
εFehlerterm, der einer Normalverteilung mit dem Mittelwert 0 folgt
bkSchätzwert des k-ten Regressionskoeffizienten der Grundgesamtheit
angepasste Antwortvariable

R-Qd

R2 wird auch als Determinationskoeffizient bezeichnet.

Formel

Notation

BegriffBeschreibung
yi i-ter beobachteter Wert der Antwortvariablen
Mittelwert der Antwortvariablen
i-ter angepasster Wert der Antwortvariablen

R-Qd(kor)

Notation

BegriffBeschreibung
MSMittel der Quadrate
SSSumme der Quadrate
DFFreiheitsgrade

PRESS

Bewertet die Prognosefähigkeiten des Modells und wird wie folgt berechnet:

Notation

BegriffBeschreibung
nAnzahl der Beobachtungen
eii-tes Residuum
hi

i-tes Diagonalelement von

X (X' X)-1X'

R-Qd (prog)

Obwohl die Berechnungen für R2 (prog) negative Werte ergeben können, zeigt Minitab in derartigen Fällen null an.

Notation

BegriffBeschreibung
yi i-ter beobachteter Wert der Antwortvariablen
Mittelwert der Antwortvariablen
n Anzahl der Beobachtungen
ei i-tes Residuum
hi i-tes Diagonalelement von X(X'X)–1X'
X Designmatrix

Mallows-Cp

Notation

BegriffBeschreibung
SSEpSumme der quadrierten Fehler für das untersuchte Modell
MSEmmittleres Fehlerquadrat für das Modell mit allen potenziellen Termen
nAnzahl der Beobachtungen
pAnzahl der Terme im Modell, einschließlich der Konstanten

S

Notation

BegriffBeschreibung
MSEMittleres Fehlerquadrat

Log-Likelihood

Minitab verwendet für nicht gewichtete Analysen folgende Gleichung:
Für Analysen, bei denen die Beobachtungen gewichtet werden, verwendet Minitab die folgende Gleichung:

Beobachtungen mit einer Gewichtung von 0 sind in der Analyse nicht enthalten.

Notation

BegriffBeschreibung
nAnzahl der Beobachtungen
RSumme der Quadrate für Fehler für das Modell
wiGewichtung für die i-te Beobachtung

Akaikes korrigiertes Informationskriterium (AICc)

Das AICc wird nicht berechnet, wenn .

Notation

BegriffBeschreibung
nAnzahl der Beobachtungen
pAnzahl der Koeffizienten im Modell einschließlich der Konstante

Bayessches Informationskriterium (BIC)

Notation

BegriffBeschreibung
pAnzahl der Koeffizienten im Modell einschließlich der Konstante
nAnzahl der Beobachtungen

Bedingungszahl

Notation

BegriffBeschreibung
CBedingungszahl
λMaximum maximaler Eigenwert aus der Korrelationsmatrix der Terme im Modell, ausschließlich des Schnittpunkts
λMinimum minimaler Eigenwert aus der Korrelationsmatrix der Terme im Modell, ausschließlich des Schnittpunkts