¿Qué es la regresión de mínimos cuadrados parciales?

La regresión de mínimos cuadrados parciales (PLS) es una técnica que reduce los predictores a un conjunto más pequeño de componentes no correlacionados y realiza una regresión de mínimos cuadrados sobre estos componentes, en lugar de hacerlo sobre los datos originales. La regresión PLS resulta especialmente útil cuando los predictores son muy colineales o cuando usted tiene más predictores que observaciones y la regresión de mínimos cuadrados ordinarios produce coeficientes con altos errores estándar o falla por completo. PLS no presupone que los predictores son fijos, a diferencia de la regresión múltiple. Esto significa que los predictores pueden medirse con error, lo que hace que PLS sea más robusta a la incertidumbre de las mediciones.

La regresión PLS se utiliza principalmente en las industrias química, de medicamentos, de alimentos y de plásticos. Una aplicación común consiste en modelar la relación entre mediciones espectrales (NIR, IR, UV), que incluye muchas variables que suelen estar correlacionadas entre sí, y la composición química u otras propiedades fisioquímicas. En la regresión PLS, el énfasis está en el desarrollo de modelos predictivos. Por lo tanto, no suele utilizarse para descartar variables que no son útiles para explicar la respuesta.

Para hacer la regresión PLS, Minitab utiliza el algoritmo iterativo no lineal de mínimos cuadrados parciales (NIPALS) desarrollado por Herman Wold. Este algoritmo reduce el número de predictores mediante el uso de una técnica similar a las del análisis de componentes principales para extraer un conjunto de componentes que describa la correlación máxima entre los predictores y las variables de respuesta. PLS puede calcular tantos componentes como el número de predictores; con frecuencia se utiliza la validación cruzada para identificar el conjunto más pequeño de componentes que provee la mayor capacidad predictiva. Si usted calcula todos los componentes posibles, el modelo resultante es equivalente al modelo que obtendría utilizando la regresión de mínimos cuadrados. En PLS, los componentes se seleccionan de acuerdo con la cantidad de varianza que explican en los predictores y entre los predictores y las respuestas. Si los predictores están muy correlacionados, o si un número más pequeño de componentes modela perfectamente la respuesta, entonces el número de componentes en el modelo PLS puede ser mucho menor que el número de predictores. A continuación, Minitab realiza la regresión de mínimos cuadrados sobre estos componentes no relacionados.

A diferencia de la regresión de mínimos cuadrados, PLS puede ajustarse a múltiples variables de respuesta en un solo modelo. La regresión PLS se ajusta a múltiples variables de respuesta en un solo modelo. Puesto que la regresión PLS modela las variables de respuesta de una forma multivariada, los resultados podrían diferir significativamente de los calculados para las variables de respuesta de manera individual. Múltiples respuestas deberían modelarse por separado solo si las respuestas no están correlacionadas.