Méthodes et formules pour les valeurs ajustées et les valeurs résiduelles dans Régression par les moindres carrés partiels

Sélectionnez la méthode ou la formule de votre choix.

Valeurs ajustées

Y prévu ou est la valeur de réponse moyenne pour les valeurs de prédicteurs concernées, obtenue à l'aide de l'équation de régression estimée.

Valeurs ajustées à validation croisée

Les valeurs ajustées à validation croisée indiquent dans quel mesure votre modèle permet de prévoir les données. Elles sont semblables aux valeurs ajustées ordinaires, indiquant à quel point votre modèle ajuste les données. Pour obtenir la valeur ajustée à validation croisée d'une observation, la valeur doit être retirée des données utilisées pour calculer le modèle ; l'ajustement est ensuite calculé à l'aide du vecteur de coefficient indépendant de l'observation. La formule pour les valeurs ajustées à validation croisée est la suivante :

Notation

TermeDescription
\iIndique que l'observation i a été exclue du calcul du modèle
b0\iordonnée à l'origine du modèle qui n'inclut pas l'observation i
Xvaleurs du prédicteur
B(\i)(j, k)coefficients du modèle qui n'inclut pas d'observation i

Valeurs résiduelles

Une valeur résiduelle est la différence entre une valeur observée et la valeur ajustée correspondante. Cette partie de l'observation n'est pas expliquée par le modèle. La valeur résiduelle d'une observation est la suivante :

Notation

TermeDescription
yiie valeur de réponse observée
ie valeur ajustée pour la réponse

Valeurs résiduelles à validation croisée

Les valeurs résiduelles à validation croisée mesurent la capacité de prévision du modèle et servent à calculer la statistique SomCar-ErrPrév. Les valeurs résiduelles à validation croisée dans la régression PLS et des moindres carrés sont conceptuellement similaires, mais leurs calculs diffèrent.

Formule

Dans PLS, les valeurs résiduelles à validation croisée sont les différences entre les réponses réelles et les valeurs ajustées à validation croisée.

La valeur résiduelle à validation croisée varie selon le nombre d'observations omises à chaque nouveau calcul du modèle lors de la validation croisée.

Dans la régression des moindres carrés, les valeurs résiduelles à validation croisée sont calculées directement à partir des valeurs résiduelles ordinaires.

Notation

TermeDescription
(i) observation omise du calcul du modèle
yivaleur de réponse
valeur ajustée à validation croisée

Valeur résiduelle normalisée (Val. résid. norm)

Les valeurs résiduelles normalisées sont également appelées "valeurs résiduelles studentisées en interne".

Formule

Notation

TermeDescription
ei ie valeur résiduelle
hi ie élément sur la diagonale de X(X'X)–1X'
s2 carré moyen de l'erreur
Xmatrice du plan
X'transposition de la matrice de plan

Erreur type de la valeur ajustée (ErT ajust)

L'erreur type de la valeur ajustée dans un modèle de régression avec un prédicteur est calculée comme suit :

L'erreur type de la valeur ajustée dans un modèle de régression avec plusieurs prédicteurs est calculée comme suit :

Pour la régression pondérée, inclure la matrice de poids dans l’équation:

Lorsque les données disposent d’un ensemble de données de test ou d’une validation croisée Buplé, les formules sont les mêmes. La valeur de s2 provient des données de formation. La matrice de conception et la matrice de poids proviennent également des données de formation.

Notation

TermeDescription
s2mean square error
nnumber of observations
x0new value of the predictor
mean of the predictor
xiie predictor value
x0 vector of values that produce the fitted values, one for each column in the design matrix, beginning with a 1 for the constant term
X0transpose of the new vector of predictor values
Xdesign matrix
Wweight matrix

Intervalle de confiance

L'intervalle de confiance est l'étendue dans laquelle on s'attend à trouver la réponse moyenne estimée d'un ensemble donné de valeurs de prédicteurs. L'intervalle est défini par une limite inférieure et une limite supérieure, calculées par Minitab à partir du niveau de confiance et de l'erreur type des valeurs ajustées.

Formule

Notation

TermeDescription
α valeur alpha
nnombre d'observations
pnombre de prédicteurs
s2carré moyen de l'erreur
S2(b)matrice de variance/covariance des coefficients

Intervalle de prévision

L'intervalle de prévision est l'étendue dans laquelle on s'attend à trouver la réponse ajustée pour une nouvelle observation.

Formule

Notation

TermeDescription
s(Prév)
valeur de réponse ajustée pour un ensemble donné de valeurs de prédicteurs
αseuil de signification
nnombre d'observations
pnombre de paramètres de modèle
s 2carré moyen de l'erreur
Xmatrice de prédicteur
X0vecteur de valeurs de prédiction données avec une colonne et p lignes
X'0transposition du nouveau vecteur des valeurs de prédiction avec une ligne et p colonnes