Methoden und Formeln für Passungen und Residuen in Regressionsmodell anpassen und Lineare Regression

Wählen Sie die gewünschte Methode oder Formel aus.

Anpassung

Notation

BegriffBeschreibung
angepasster Wert
xkk-ter Term. Jeder Term kann ein einzelner Prädiktor, ein Polynomialterm oder ein Wechselwirkungsterm sein.
bkSchätzwert des k-ten Regressionskoeffizienten

Standardfehler des angepassten Werts (SE Anpassung)

Der Standardfehler des angepassten Werts in einem Regressionsmodell mit einem Prädiktor wird wie folgt ausgedrückt:

Der Standardfehler des angepassten Werts in einem Regressionsmodell mit mehreren Prädiktoren wird wie folgt ausgedrückt:

Fügen Sie für die gewichtete Regression die Gewichtsmatrix in die Gleichung ein:

Wenn die Daten über einen Testdatensatz oder eine K-Falten-Kreuzvalidierung verfügen, sind die Formeln identisch. Der Wert von s2 stammt aus den Trainingsdaten. Die Designmatrix und die Gewichtsmatrix stammen ebenfalls aus den Trainingsdaten.

Notation

BegriffBeschreibung
s2mean square error
nnumber of observations
x0new value of the predictor
mean of the predictor
xii-ter predictor value
x0 vector of values that produce the fitted values, one for each column in the design matrix, beginning with a 1 for the constant term
X =0transpose of the new vector of predictor values
Xdesign matrix
Wweight matrix

Konfidenzintervall für einen angepassten Wert (KI)

Formel

Für die Regression gibt die folgende Formel die Konfidenzgrenzen für einen angepassten Wert an:

Bei der gewichteten Regression enthält die Formel die Gewichtungen:

Dabei gilt Folgendes: tv ist das (1–α/2)-Quantil der t-Verteilung mit v Freiheitsgraden für ein beidseitiges Intervall. Für eine einseitige Grenze ist tv das (1–α)-Quantil der t-Verteilung mit v Freiheitsgraden.

Wenn Sie einen Testdatensatz oder eine Kreuzvalidierung mit K Faltungen verwenden, stammen die Freiheitsgrade und das mittlere Fehlerquadrat aus dem Trainingsdatensatz.

Wenn Sie eine Box-Cox-Transformation ausführen, wenden Sie die inverse Transformation auf die Formel für das Konfidenzintervall an, um die Grenzen in den Einheiten der ursprünglichen Antwortvariablen zu ermitteln. Wenn die Box-Cox-Transformation z. B. der natürliche Logarithmus ist, gibt die folgende Formel die inverse Transformation an:

Notation

BegriffBeschreibung
fitted value
quantile from the t distribution
degrees of freedom
mean square error
leverage for the i-te observation
wiweight for the i-te observation

Residuen

Das Residuum gibt die Differenz zwischen einem beobachteten Wert und dem entsprechenden angepassten Wert an. Dieser Teil der Beobachtung wird nicht durch das Modell erklärt. Das Residuum einer Beobachtung lautet:

Notation

BegriffBeschreibung
yii-ter beobachteter Wert der Antwortvariablen
i-ter angepasster Wert der Antwortvariablen

Standardisiertes Residuum (Std. Resid)

Standardisierte Residuen werden auch als intern studentisierte Residuen bezeichnet.

Formel

Notation

BegriffBeschreibung
ei i-tes Residuum
hi i-tes Diagonalelement von X(X'X)–1X'
s2 mittleres Fehlerquadrat
XDesignmatrix
X'transponierte Designmatrix

Standardisiertes Residuum (Std. Resid) mit Validierung

Bei den Validierungsdaten wird im Nenner der Formel für das standardisierte Residuum die Hebelwirkung addiert und nicht subtrahiert.

Formel

Bei der gewichteten Regression enthält die Formel die Gewichtung:

Notation

BegriffBeschreibung
eii -te residual in the validation data set
hi leverage for the i-te validation row
s2mean square error for the training data set
wiweight for the i-te observation in the validation data set

Entfernte (studentisierte) Residuen

Diese werden auch als extern studentisierte Residuen bezeichnet. Die Formel lautet wie folgt:

Die Formel kann auch wie folgt ausgedrückt werden:

In dem Modell, mit dem die i-te Beobachtung geschätzt wird, wird die i-te Beobachtung aus dem Datensatz entfernt. Daher kann die i-te Beobachtung den Schätzwert nicht beeinflussen. Jedes entfernte Residuum hat eine Student-t-Verteilung mit Freiheitsgraden.

Notation

BegriffBeschreibung
eii-tes Residuum
s(i)2mittlerer quadrierter Fehler, der ohne die i-te Beobachtung berechnet wurde
hi i-tes Diagonalelement von X(X'X)–1X'
nAnzahl der Beobachtungen
pAnzahl der Terme, einschließlich der Konstanten
SSESumme der Quadrate für Fehler