Méthodes pour Ajuster le modèle de régression et Regressão Linear

Sélectionnez la méthode ou la formule de votre choix.

Sur ce thème

Régression pondérée
Transformation de Box-Cox
Équation de régression
Matrice du plan
Inverse de x'x
Procédure pour supprimer des prédicteurs fortement corrélés de l'équation de régression dans Ajuster le modèle de régression

Régression pondérée

La régression par les moindres carrés pondérée est une méthode permettant de traiter les observations qui présentent des variances non constantes. Si les variances ne sont pas constantes, attribuez :

des pondérations relativement faibles aux observations ayant des variances importantes
des pondérations relativement importantes aux observations ayant des variances faibles

Les pondérations sont généralement choisies comme l'inverse de la variance de l'erreur pure dans le réponse.

La formule pour les coefficients estimés est la suivante :

Cela revient à minimiser la valeur SC Erreur pondérée.

Notation

Terme	Description
X	matrice du plan
X'	transposition de la matrice de plan
W	matrice n x n, avec les pondérations sur la diagonale
Y	vecteur des valeurs de réponse
n	nombre d'observations
w_i	pondération pour l'i^e observation
y_i	valeur de réponse pour l'i^e observation
	valeur ajustée pour l'i^e observation

Transformation de Box-Cox

La transformation de Box-Cox sélectionne les valeurs lambda (comme indiqué ci-dessous) qui minimisent la somme des carrés des valeurs résiduelles. La transformation obtenue est Y ^λ lorsque λ ≠ 0, et ln(Y) lorsque λ = 0. Lorsque λ < 0, Minitab multiplie également la réponse transformée par −1 pour conserver l'ordre de la réponse non transformée.

Minitab recherche une valeur optimale entre −2 et 2. Les valeurs en dehors de cet intervalle sont susceptibles de ne pas fournir un meilleur ajustement.

Voici quelques transformations courantes dans lesquelles Y′ représente la transformation des données Y :

Valeur lambda (λ)	Transformation
λ = 2	Y′ = Y ²
λ = 0,5	Y′ =
λ = 0	Y′ = ln(Y )
λ = −0,5
λ = −1	Y′ = −1 / Y

Équation de régression

Pour un modèle avec plusieurs prédicteurs, l’équation est la suivante :

y = β₀ + β₁x₁ + ... + β_kx_k + ε

L’équation ajustée est :

Dans la régression linéaire simple, qui n’inclut qu’un seul prédicteur, le modèle est :

y=ß₀+ ß₁x₁+ε

En utilisant des estimations de régression b₀ pour ß₀, et b₁ pour ß₁, l’équation ajustée est la suivante :

Équations avec une variable catégorielle

Lorsque vous incluez une variable catégorielle dans un modèle de régression, il y a 2 options pour afficher l’équation de régression :

Équation séparée de chaque ensemble de niveaux prédicteurs catégoriels
Equation unique

Ces deux options sont équivalentes. Par exemple, supposons que les données aient les variables suivantes :

C1: La variable de réponse
C2: Un prédicteur continu
C3: Une variable prédictive catégorique avec les niveaux Rouge et Bleu

Les équations séparées sont les suivantes :

Bleu: C1 = 0,184 + 0,1964*C2
Rouge: C1 = 0,011 + 0,1964*C2

Une seule équation utilise une variable indicatrice pour représenter la variable catégorique.

C1 = 0,184 + 0,1964*C2 + 0,0*C3_Bleu - 0,173*C3_Rouge

Dans l’équation unique, C3_Bleu est égal à 1 si l’observation est bleue, et 0 sinon. C3_Rouge est égal à 1 si l’observation est rouge, et 0 sinon. Pour chaque groupe, on substitue la variable indicatrice pour vérifier que l’équation unique est la même que les deux équations distinctes.

Observation bleue (C3_Bleu = 1, C3_Rouge = 0) : C1 = 0,184 + 0,1964*C2 + 0,0*1 - 0,173*0 = 0,184 + 0,1964*C2
Observation rouge (C3_Bleu = 0, C3_Rouge = 1 : C1 = 0,084 + 0,1964*C2 + 0,0*0 - 0,173*1 = 0,011 + 0,1964*C2

Notation

Terme	Description
y	réponse
x_k	K^trimestre . Chaque terme peut être un prédicteur unique, un terme polynomial ou un terme d’interaction.
ß_k	k^ième coefficient de régression de population
ε	terme d’erreur qui suit une distribution normale avec une moyenne de 0
b_k	Estimation du kième coefficient^de régression de la population
	réponse ajustée

Matrice du plan

La matrice du plan contient les prédicteurs dans une matrice (X) de n lignes, où n correspond au nombre d'observations. Il existe une colonne pour chaque coefficient du modèle.

Les prédicteurs de catégories sont codés à l'aide du codage 1, 0 ou -1, 0, 1. X n'inclut pas de colonne pour le niveau de référence du facteur.

Pour calculer les colonnes d'un terme d'interaction, multipliez toutes les valeurs correspondantes des prédicteurs dans l'interaction. Par exemple, supposons que la première observation a une valeur de 4 pour le prédicteur A et une valeur de 2 pour le prédicteur B. Dans la matrice du plan, l'interaction entre A et B est représentée par le chiffre 8 (4 x 2).

Inverse de x'x

Matrice p x p, dans laquelle p représente le nombre de coefficients dans le modèle. La multiplication de la valeur inverse x'x par le carré moyen de l'erreur génère la matrice de variance/covariance des coefficients. Minitab utilise également la valeur inverse x'x pour calculer les coefficients de régression et la matrice chapeau.

Procédure pour supprimer des prédicteurs fortement corrélés de l'équation de régression dans Ajuster le modèle de régression

Supposons que r_ij est l'élément dans la matrice de balayage associé à X_i et X_j.

Les variables sont saisies ou supprimées une à une. X_k est éligible à la saisie s'il correspond à une variable indépendante ne se trouvant pas actuellement dans le modèle avec r_kk ≥ 1 (tolérance avec une valeur par défaut de 0,0001) et également pour chaque variable X_j se trouvant actuellement dans le modèle,

Pour supprimer des prédicteurs fortement corrélés d'une équation de régression, Minitab suit les étapes suivantes :

Minitab exécute la méthode SWEEP sur la matrice de corrélation, R, traitant X₁ … X_p comme s'il s'agissait de variables aléatoires.
Pour tout prédicteur continu, Minitab compare l'élément r_kk avec la tolérance ; r_kk ≥ tolérance, où k = 1 par rapport à p.
Pour chaque variable X_j se trouvant actuellement dans le modèle, Minitab vérifie que (r_jj – r_jk * (r_kj / r_kk)) * tolérance ≤ 1.
Remarque
Où r_kk, r_jk, r_jj sont les éléments de diagonale et hors diagonale correspondant aux variables X_j et X_k après l'étape k des opérations SWEEP.
Dans le cas contraire, le prédicteur échoue au test et est supprimé du modèle.
Remarque
La valeur de tolérance par défaut est de 8,8e-12.

Remarque

Vous pouvez utiliser la sous-commande TOLERANCE avec la session de commande REGRESS pour forcer Minitab à conserver dans le modèle un prédicteur fortement corrélé avec un autre prédicteur. Cependant, diminuer la tolérance peut s'avérer dangereux, car cela peut générer des résultats imprécis sur le plan numérique.