Methoden und Formeln für Anpassungen und Residuen in Regression der partiellen kleinsten Quadrate

Wählen Sie die gewünschte Methode oder Formel aus.

Angepasste Werte

Das prognostizierte y oder ist der Mittelwert der Antwortvariablen für die gegebenen Prädiktorwerte unter Verwendung der geschätzten Regressionsgleichung.

Kreuzvalidierte angepasste Werte

Kreuzvalidierte angepasste Werte geben an, wie gut das Modell die Daten prognostiziert. Diese Werte ähneln regulären angepassten Werten, die angeben, wie gut das Modell an die Daten angepasst ist. Um den kreuzvalidierten angepassten Wert für eine Beobachtung zu berechnen, muss diese aus den Daten entfernt werden, die zur Berechnung des Modells verwendet werden, und anschließend wird die Anpassung mit dem Koeffizientenvektor berechnet, der unabhängig von der Beobachtung ist. Die Formel für kreuzvalidierte angepasste Werte lautet wie folgt:

Notation

BegriffBeschreibung
\iGibt an, dass Beobachtung i aus der Modellberechnung entfernt wurde
b0\iSchnittpunkt mit der y-Achse für das Modell, das Beobachtung i nicht enthält
XPrädiktorwerte
B(\i)(j, k) Koeffizienten für das Modell, das Beobachtung i nicht enthält

Residuen

Das Residuum gibt die Differenz zwischen einem beobachteten Wert und dem entsprechenden angepassten Wert an. Dieser Teil der Beobachtung wird nicht durch das Modell erklärt. Das Residuum einer Beobachtung lautet:

Notation

BegriffBeschreibung
yii-ter beobachteter Wert der Antwortvariablen
i-ter angepasster Wert der Antwortvariablen

Kreuzvalidierte Residuen

Mit Hilfe von kreuzvalidierten Residuen wird die Prognosefähigkeit des Modells gemessen, und es wird die PRESS-Statistik berechnet. Kreuzvalidierte Residuen in der PLS-Regression und der Regression der kleinsten Quadrate ähneln sich im Konzept, werden aber unterschiedlich berechnet.

Formel

In PLS sind die kreuzvalidierten Residuen die Differenzen zwischen den tatsächlichen Werten der Antwortvariablen und den kreuzvalidierten angepassten Werten.

Der Wert des kreuzvalidierten Residuums variiert je nach der Anzahl der entfernten Beobachtungen bei jeder Neuberechnung des Modells während der Kreuzvalidierung.

Bei der Regression der kleinsten Quadrate werden die kreuzvalidierten Residuen direkt aus den einfachen Residuen berechnet.

Notation

BegriffBeschreibung
(i) aus der Modellberechnung entfernte Beobachtung
yi Wert der Antwortvariablen
kreuzvalidierter angepasster Wert

Standardisiertes Residuum (Std. Resid)

Standardisierte Residuen werden auch als intern studentisierte Residuen bezeichnet.

Formel

Notation

BegriffBeschreibung
ei i-tes Residuum
hi i-tes Diagonalelement von X(X'X)–1X'
s2 mittleres Fehlerquadrat
XDesignmatrix
X'transponierte Designmatrix

Standardfehler des angepassten Werts (SE Anpassung)

Der Standardfehler des angepassten Werts in einem Regressionsmodell mit einem Prädiktor wird wie folgt ausgedrückt:

Der Standardfehler des angepassten Werts in einem Regressionsmodell mit mehreren Prädiktoren wird wie folgt ausgedrückt:

Fügen Sie für die gewichtete Regression die Gewichtsmatrix in die Gleichung ein:

Wenn die Daten über einen Testdatensatz oder eine K-Falten-Kreuzvalidierung verfügen, sind die Formeln identisch. Der Wert von s2 stammt aus den Trainingsdaten. Die Designmatrix und die Gewichtsmatrix stammen ebenfalls aus den Trainingsdaten.

Notation

BegriffBeschreibung
s2mean square error
nnumber of observations
x0new value of the predictor
mean of the predictor
xii-ter predictor value
x0 vector of values that produce the fitted values, one for each column in the design matrix, beginning with a 1 for the constant term
X =0transpose of the new vector of predictor values
Xdesign matrix
Wweight matrix

Konfidenzintervall

Das Konfidenzintervall ist der Bereich, in dem der geschätzte Mittelwert der Antwortvariablen bei einer gegebenen Gruppe von Prädiktorwerten erwartet wird. Das Intervall wird durch eine untere und eine obere Grenze definiert, die Minitab aus dem Konfidenzniveau und dem Standardfehler der Anpassungen berechnet.

Formel

Notation

BegriffBeschreibung
α Alpha-Wert
n Anzahl der Beobachtungen
p Anzahl der Prädiktoren
s 2 mittleres Fehlerquadrat
S 2(b)Varianz-Kovarianz-Matrix der Koeffizienten

Prognoseintervall

Das Prognoseintervall ist der Bereich, in dem der angepasste Wert der Antwortvariablen für eine neue Beobachtung erwartet wird.

Formel

Notation

BegriffBeschreibung
s(Prog)
angepasster Wert der Antwortvariablen für eine gegebene Gruppe von Prädiktorwerten
αSignifikanzniveau
nAnzahl der Beobachtungen
pAnzahl der Modellparameter
s 2mittleres Fehlerquadrat
XPrädiktormatrix
X0Vektor der angegebenen Prädiktorwerte mit 1 Spalte und p Zeilen
X'0Transponierung des neuen Vektors von Prädiktorwerten mit 1 Zeilen und p Spalten