Qu'est-ce que la régression par les moindres carrés partiels ?

La régression par les moindres carrés partiels (PLS) est une technique qui réduit les prédicteurs à un plus petit ensemble de composantes non corrélées et qui effectue la régression par les moindres carrés sur ces composantes, plutôt que sur les données initiales. La fonctionnalité PLS est particulièrement utile lorsque les prédicteurs sont fortement colinéaires, ou lorsque vous avez plus de prédicteurs que d'observations et que la régression sur les moindres carrés échoue complètement ou produit des coefficients avec des erreurs types élevées. Les moindres carrés partiels (PLS) ne supposent pas que les prédicteurs sont fixes, à la différence de la régression multiple. Ainsi, les mesures des prédicteurs tolèrent des erreurs, ce qui signifie que l'analyse PLS gère mieux l'incertitude des mesures.

La régression par les moindres carrés partiels est essentiellement utilisée dans les secteurs chimique, pharmaceutique, alimentaire et plastique. Une application courante consiste à modéliser la relation entre des mesures spectrales (spectre du proche infrarouge, IR UV), qui comprennent de nombreuses variables souvent corrélées les unes avec les autres, et une composition chimique ou d'autres propriétés physiques et chimiques. La régression PLS met l'accent sur le développement de modèles de prévision. Par conséquent, elle n'est généralement pas utilisée pour éliminer les variables qui ne permettent pas d'expliquer la réponse.

Pour réaliser la méthode PLS, Minitab utilise l'algorithme NIPALS (nonlinear iterative partial least squares) développé par Herman Wold. Cet algorithme réduit le nombre de prédicteurs en utilisant une technique semblable à l'analyse en composantes principales pour extraire l'ensemble des composantes qui décrit la corrélation maximum entre les variables de prédiction et de réponse. La fonctionnalité PLS peut calculer autant de composantes qu'il existe de prédicteurs ; souvent, la validation croisée permet d'identifier le plus petit ensemble de composantes qui offre la meilleure capacité de prévision. Si vous calculez toutes les composantes possibles, le modèle obtenu est équivalent au modèle que vous obtiendriez à l'aide de la régression sur les moindres carrés. Dans la fonctionnalité PLS, les composantes sont sélectionnées en fonction du degré de variance qu'elles expliquent d'une part dans les prédicteurs, d'autre part entre les prédicteurs et la ou les réponses. Si les prédicteurs sont fortement corrélés ou qu'un plus petit nombre de composantes modélise parfaitement la réponse, le nombre de composantes dans le modèle PLS peut être largement inférieur au nombre de prédicteurs. Minitab effectue ensuite une régression par les moindres carrés sur ces composantes non corrélées.

Contrairement à la régression sur les moindres carrés, la fonctionnalité PLS peut ajuster plusieurs variables de réponse dans un même modèle. La régression PLS ajuste plusieurs variables de réponse dans un même modèle. Dans la mesure où la régression PLS ajuste plusieurs variables de réponse de façon multivariée, les résultats peuvent différer significativement de ceux calculés individuellement pour les variables de réponse. Vous devez modéliser plusieurs réponses séparément uniquement si les réponses ne sont pas corrélées.