Méthodes et formules pour les valeurs ajustées et les valeurs résiduelles dans Ajuster le modèle de régression

Sélectionnez la méthode ou la formule de votre choix.

Valeur ajustée

Notation

TermeDescription
valeur ajustée
xkke terme. Chaque terme peut être un prédicteur unique, un terme polynomial ou un terme d'interaction.
bkestimation du ke coefficient de régression

Erreur type de la valeur ajustée (ErT ajust)

L'erreur type de la valeur ajustée dans un modèle de régression avec un prédicteur est calculée comme suit :

L'erreur type de la valeur ajustée dans un modèle de régression avec plusieurs prédicteurs est calculée comme suit :

Pour la régression pondérée, inclure la matrice de poids dans l’équation:

Lorsque les données disposent d’un ensemble de données de test ou d’une validation croisée Buplé, les formules sont les mêmes. La valeur de s2 provient des données de formation. La matrice de conception et la matrice de poids proviennent également des données de formation.

Notation

TermeDescription
s2mean square error
nnumber of observations
x0new value of the predictor
mean of the predictor
xiie predictor value
x0 vector of values that produce the fitted values, one for each column in the design matrix, beginning with a 1 for the constant term
X0transpose of the new vector of predictor values
Xdesign matrix
Wweight matrix

Intervalle de confiance pour une valeur ajustée (IC)

Formule

Pour la régression, la formule suivante donne les limites de confiance pour une valeur ajustée :

Pour la régression pondérée, la formule comprend les pondérations :

tv est le 1–α/2 quantile de la distribution t avec v degrés de liberté pour un intervalle bilatéral. Pour une limite unilatérale, tv est le 1–α quantile de la distribution t avec v degrés de liberté.

Lorsque vous utilisez un ensemble de données de test ou une validation croisée de K ensembles, les degrés de liberté et l'erreur quadratique moyenne proviennent de l'ensemble de données d'apprentissage.

Lorsque vous utilisez une transformation de Box-Cox, appliquez la transformation inverse à la formule de l'intervalle de confiance pour trouver les limites dans les unités de la réponse d'origine. Par exemple, si la transformation de Box-Cox est le logarithme népérien, alors la formule suivante donne la transformation inverse :

Notation

TermeDescription
fitted value
quantile from the t distribution
degrees of freedom
mean square error
leverage for the ie observation
wiweight for the ie observation

Valeurs résiduelles

Une valeur résiduelle est la différence entre une valeur observée et la valeur ajustée correspondante. Cette partie de l'observation n'est pas expliquée par le modèle. La valeur résiduelle d'une observation est la suivante :

Notation

TermeDescription
yiie valeur de réponse observée
ie valeur ajustée pour la réponse

Valeur résiduelle normalisée (Val. résid. norm)

Les valeurs résiduelles normalisées sont également appelées "valeurs résiduelles studentisées en interne".

Formule

Notation

TermeDescription
ei ie valeur résiduelle
hi ie élément sur la diagonale de X(X'X)–1X'
s2 carré moyen de l'erreur
Xmatrice du plan
X'transposition de la matrice de plan

Valeurs résiduelles normalisées (Val. résid. norm.) avec validation

Pour les données de validation, le dénominateur de la formule pour les valeurs résiduelles normalisées ajoute l'effet de levier au lieu de le soustraire.

Formule

Pour la régression pondérée, la formule comprend la pondération :

Notation

TermeDescription
eiie residual in the validation data set
hi leverage for the ie validation row
s2mean square error for the training data set
wiweight for the ie observation in the validation data set

Valeurs résiduelles supprimées (studentisées)

Egalement appelées valeurs résiduelles studentisées de manière externe. La formule estla suivante :

Voici une autre présentation possible de la formule :

Le modèle qui effectue l'estimation de l'ie observation omet cette dernière dans l'ensemble de données. Par conséquent, l'ie observation ne peut pas influencer l'estimation. Chaque valeur résiduelle supprimée suit une loi de Student avec degrés de liberté.

Notation

TermeDescription
eiie valeur résiduelle
s(i)2carré moyen de l'erreur calculé sans l'ie observation
hi ie élément sur la diagonale de X(X'X)–1X'
nnombre d'observations
pnombre de termes, constante incluse
SCEsomme des carrés de l'erreur