Multicolinéarité dans la régression.

Sur ce thème

Qu'est-ce que la multicolinéarité ?
Méthodes de correction de la multicolinéarité

Qu'est-ce que la multicolinéarité ?

Dans une régression, la multicolinéarité est un problème qui survient lorsque certaines variables de prévision du modèle sont corrélées avec d'autres. Une multicolinéarité prononcée s'avère problématique, car elle peut augmenter la variance des coefficients de régression et les rendre instables et difficiles à interpréter. Les conséquences de coefficients instables peuvent être les suivantes :

Les coefficients peuvent sembler non significatifs, même lorsqu'une relation significative existe entre le prédicteur et la réponse.
Les coefficients de prédicteurs fortement corrélés varieront considérablement d'un échantillon à un autre.
Lorsque des termes d'un modèle sont fortement corrélés, la suppression de l'un de ces termes aura une incidence considérable sur les coefficients estimés des autres. Les coefficients des termes fortement corrélés peuvent même présenter le mauvais signe.

Pour mesurer la multicolinéarité, vous pouvez étudier la structure de corrélation des variables de prédiction. Vous pouvez également examiner les facteurs d'inflation de la variance (FIV) des coefficients de régression du modèle. Les FIV mesurent l'accroissement de la variance d'un coefficient de régression estimé s'il existe une corrélation entre vos prédicteurs. Si tous les FIV sont égaux à 1, il n'existe pas de multicolinéarité, mais si certains FIV sont supérieurs à 1, les prédicteurs sont corrélés. Lorsqu'un FIV est supérieur à 5, le coefficient de régression de ce terme n'est pas correctement estimé.

La multicolinéarité peut aussi être mesurée par le conditionnement. Minitab indique la valeur de conditionnement dans le tableau développé de la régression sur les meilleurs sous-ensembles. Cette valeur évalue la multicolinéarité au sein d'un modèle entier, et non pour des termes individuels. Plus la valeur de conditionnement est élevée, plus la multicolinéarité des termes du modèle est importante. Montgomery, Peck, et Vining¹ suggèrent qu'un conditionnement supérieur à 100 indique une multicolinéarité modérée. En cas de relative multicolinéarité ou pire, utilisez les FIV et la structure de corrélation des données pour étudier la relation entre les termes du modèle.

Si la corrélation d'un prédicteur avec d'autres est presque parfaite, Minitab affiche un message indiquant que le terme ne peut pas être estimé. La valeur des FIV des termes ne pouvant pas être estimés dépasse généralement le milliard.

La multicolinéarité n'a aucune incidence sur l'adéquation de l'ajustement, ni sur la qualité de la prévision. Les coefficients (fonction discriminante linéaire) ne peuvent pas être interprétés de façon fiable, mais ceci n'a pas d'incidence sur les valeurs ajustées (classées).

Remarque

La multicolinéarité a le même effet dans l'analyse discriminante que dans l'analyse de régression.

Méthodes de correction de la multicolinéarité

Les solutions suivantes peuvent résoudre la multicolinéarité prononcée :

Si vous ajustez des valeurs polynomiales, soustrayez la moyenne du prédicteur des valeurs du prédicteur.
Retirez les prédicteurs fortement corrélés du modèle. Comme ils fournissent des informations redondantes, leur retrait ne réduit souvent pas radicalement le R². Envisagez de recourir à la régression pas à pas, à la régression sur les meilleurs sous-ensembles ou aux connaissances propres à l'ensemble des données pour retirer ces variables.
Utilisez PLS (Moindres carrés partiels) ou Analyse des composantes principales. Ces méthodes réduisent le nombre de prédicteurs jusqu'à obtenir un ensemble plus restreint de composantes non corrélées.

Par exemple, un fabricant de jouets souhaite mesurer la satisfaction de la clientèle et inclut "résistance" et "absence de bris" comme variables de prédiction dans le modèle de régression. La personne chargée des recherches détermine que ces deux variables sont fortement corrélées négativement et que leur FIV est supérieur à 5. A ce point, l'analyste pourrait essayer de supprimer l'une des variables. Il pourrait également utiliser PLS (Moindres carrés partiels) ou Analyse des composantes principales pour utiliser ces variables liées dans le but de créer une composante "durabilité".

¹ Montgomery, D. C., Peck, E. A., et Vining, G. G. (2012). Introduction to linear regression analysis (5e éd.). Hoboken, NJ: Wiley.