Methoden und Formeln für die Modellauswahl in Regression der partiellen kleinsten Quadrate

Wählen Sie die gewünschte Methode oder Formel aus.

R-Qd

R2 wird auch als Determinationskoeffizient bezeichnet.

Formel

Notation

BegriffBeschreibung
yi i-ter beobachteter Wert der Antwortvariablen
Mittelwert der Antwortvariablen
i-ter angepasster Wert der Antwortvariablen

SS

Hierbei handelt es sich um die Summe der quadrierten Distanzen. SS Regression ist der Teil der Streuung, der durch das Modell erklärt wird. SS Fehler ist der Teil, der nicht durch das Modell erklärt und auf Fehler zurückzuführen ist. SS Gesamt gibt die Gesamtstreuung der Daten an.

Formel

SS Regression:
SS Fehler:
SS Gesamt:

Notation

BegriffBeschreibung
yi i-ter beobachteter Wert der Antwortvariablen
i-ter angepasster Wert der Antwortvariablen
Mittelwert der Antwortvariablen

PRESS

Mit der Summe der quadrierten Prognosefehler (PRESS) wird die Prognosefähigkeit des Modells bewertet. PRESS ähnelt der Summe der quadrierten Residuen und stellt die Summe der quadrierten Prognosefehler dar. In der PLS-Regression berechnet Minitab PRESS nur dann, wenn Sie die Kreuzvalidierung im Modell durchgeführt haben.

Minitab berechnet PRESS in den folgenden Schritten:

  1. Minitab berechnet das Modell so oft neu, wie Beobachtungen vorliegen, wobei jedes Mal eine andere Beobachtung entfernt wird. Für jede entfernte Beobachtung berechnet Minitab den angepassten oder prognostizierten Wert der Antwortvariablen unter Verwendung des Modells.
  2. Minitab subtrahiert den prognostizierten vom beobachteten Wert der Antwortvariablen. Dies ist der echte Prognosefehler, da die Anpassung der Beobachtung unabhängig vom Modell ist.
  3. Nachdem Minitab diese Schritte für alle Beobachtungen durchgeführt hat, wird PRESS mit der folgenden Formel berechnet:

Im Allgemeinen gilt: Je kleiner der PRESS-Wert, desto besser ist die Prognosefähigkeit des Modells. Mit Hilfe von PRESS wird das prognostizierte R2 berechnet.

Notation

BegriffBeschreibung
yibeobachteter Wert der Antwortvariablen
angepasster Wert der Antwortvariablen für die entfernte Beobachtung
nAnzahl der Beobachtungen

R-Qd (prog)

Obwohl die Berechnungen für R2 (prog) negative Werte ergeben können, zeigt Minitab in derartigen Fällen null an.

Notation

BegriffBeschreibung
yi i-ter beobachteter Wert der Antwortvariablen
Mittelwert der Antwortvariablen
n Anzahl der Beobachtungen
ei i-tes Residuum
hi i-tes Diagonalelement von X(X'X)–1X'
X Designmatrix

Test-R-Qd

Dieser Wert gibt an, mit welcher Qualität das PLS-Modell die Testdaten prognostiziert. Das Test-R2 stellt den Anteil der Streuung in der Antwortvariablen dar, die durch die Prädiktoren im Testdatensatz erklärt wird. Im Allgemeinen wird das angepasste Modell mit Hilfe von Testdaten validiert. Sie müssen dieselbe Anzahl von Prädiktoren wie der ursprüngliche Datensatz enthalten. Das Test-R2 kann nur berechnet werden, wenn die Testdaten Werte der Antwortvariablen für jede Beobachtung enthalten. Das Test-R2 wird ebenso wie das R2 mit der folgenden Formel berechnet: