Qu'est-ce que la multicolinéarité ?

Dans une régression, la multicolinéarité est un problème qui survient lorsque certaines variables de prévision du modèle sont corrélées avec d'autres. Une multicolinéarité prononcée s'avère problématique, car elle peut augmenter la variance des coefficients de régression et les rendre instables et difficiles à interpréter. Les conséquences de coefficients instables peuvent être les suivantes :
  • Les coefficients peuvent sembler non significatifs, même lorsqu'une relation significative existe entre le prédicteur et la réponse.
  • Les coefficients de prédicteurs fortement corrélés varieront considérablement d'un échantillon à un autre.
  • Lorsque des termes d'un modèle sont fortement corrélés, la suppression de l'un de ces termes aura une incidence considérable sur les coefficients estimés des autres. Les coefficients des termes fortement corrélés peuvent même présenter le mauvais signe.

Pour mesurer la multicolinéarité, vous pouvez étudier la structure de corrélation des variables de prédiction. Vous pouvez également examiner les facteurs d'inflation de la variance (FIV). Les FIV mesurent l'accroissement de la variance d'un coefficient de régression estimé s'il existe une corrélation entre vos prédicteurs. Si tous les FIV sont égaux à 1, il n'existe pas de multicolinéarité, mais si certains FIV sont supérieurs à 1, les prédicteurs sont corrélés. Lorsqu'un FIV est supérieur à 5, le coefficient de régression de ce terme n'est pas correctement estimé. Si la corrélation d'un prédicteur avec d'autres est presque parfaite, Minitab affiche un message indiquant que le terme ne peut pas être estimé. La valeur des FIV des termes ne pouvant pas être estimés dépasse généralement le milliard.

La multicolinéarité n'a aucune incidence sur l'adéquation de l'ajustement, ni sur la qualité de la prévision. Les coefficients (fonction discriminante linéaire) ne peuvent pas être interprétés de façon fiable, mais ceci n'a pas d'incidence sur les valeurs ajustées (classées).

Remarque

La multicolinéarité a le même effet dans l'analyse discriminante que dans l'analyse de régression.

Procédure pour supprimer des prédicteurs fortement corrélés de l'équation de régression dans Minitab

Pour supprimer des prédicteurs fortement corrélés d'une équation de régression, Minitab suit les étapes suivantes :
  1. Minitab effectue une décomposition QR sur la matrice X.
    Remarque

    Il est plus rapide d'utiliser la décomposition QR pour calculer le R2 que la régression sur les moindres carrés.

  2. Minitab effectue une régression d'un prédicteur sur tous les autres prédicteurs et calcule la valeur de R2. Si 1 - R2 < 4 * 2,22e-016, le prédicteur échoue au test et est supprimé du modèle.
  3. Minitab répète les étapes 1 et 2 pour le reste des prédicteurs.

Exemple

Supposons qu'un modèle contienne les prédicteurs X1, X2, X3, X4 et X5, ainsi que la réponse Y, Minitab procède comme suit :
  1. Minitab effectue une régression de X5 sur X1-X4. Si 1 - R2 est supérieur à 4 * 2,22e-016, X5 reste dans l'équation. X5 réussit le test et est conservé dans l'équation.
  2. Minitab effectue une régression de X4 sur X1, X2, X3 et X5. Supposons que 1 - R2 pour cette régression soit supérieur à 4 * 2,22e-016, ce prédicteur est conservé dans l'équation.
  3. Minitab effectue une régression de X3 sur X1, X2, X4 et X5, puis calcule la valeur de R2. X3 échoue au test et est supprimé de l'équation.
  4. Minitab effectue une nouvelle décomposition QR sur la matrice X et effectue une régression de X2 sur le reste des prédicteurs, X1, X4 et X5. X2 réussit le test.
  5. Minitab effectue une régression de X1 sur X2, X4 et X5. Le prédicteur échoue au test et est supprimé de l'équation.

Minitab effectue une régression de Y sur X2, X4, X5. Les résultats contiennent un message indiquant que les prédicteurs X1 et X3 ne peuvent pas être estimés et ont été supprimés du modèle.

Remarque

Vous pouvez utiliser la sous-commande TOLERANCE avec la session de commande REGRESS pour forcer Minitab à conserver dans le modèle un prédicteur fortement corrélé avec un autre prédicteur. Cependant, diminuer la tolérance peut s'avérer dangereux, car cela peut générer des résultats imprécis sur le plan numérique.

Méthodes de correction de la multicolinéarité

Les solutions suivantes peuvent résoudre une multicolinéarité prononcée :
  • Si vous ajustez des valeurs polynomiales, soustrayez la moyenne du prédicteur des valeurs du prédicteur.
  • Retirez les prédicteurs fortement corrélés du modèle. Comme ils fournissent des informations redondantes, leur retrait ne réduit souvent pas radicalement le R2. Envisagez de recourir à la régression pas à pas, à la régression sur les meilleurs sous-ensembles ou aux connaissances propres à l'ensemble des données pour retirer ces variables.
  • Utilisez PLS (Moindres carrés partiels) ou Analyse des composantes principales. Ces méthodes réduisent le nombre de prédicteurs jusqu'à obtenir un ensemble plus restreint de composantes non corrélées.

Par exemple, un fabricant de jouets souhaite mesurer la satisfaction de la clientèle et inclut "résistance" et "absence de bris" comme variables de prédiction dans le modèle de régression. La personne chargée des recherches détermine que ces deux variables sont fortement corrélées négativement et que leur FIV est supérieur à 5. A ce point, l'analyste pourrait essayer de supprimer l'une des variables. Il pourrait également utiliser PLS (Moindres carrés partiels) ou Analyse des composantes principales pour utiliser ces variables liées dans le but de créer une composante "durabilité".

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique