Interpretar los resultados clave para Regresión de cuadrados mínimos parciales

Paso 1. Determinar el número de componentes en el modelo

El objetivo con PLS es seleccionar un modelo con el número apropiado de componentes que tenga una capacidad predictiva adecuada. Cuando usted ajusta un modelo PLS, puede realizar una validación cruzada como ayuda para determinar el número óptimo de componentes en el modelo. Con la validación cruzada, Minitab selecciona el modelo con el valor más alto de R2 pronosticado. Si no utiliza validación cruzada, puede especificar el número de componentes que desea incluir en el modelo o usar el número predeterminado de componentes. El número predeterminado de componentes es 10 o el número de predictores incluidos en los datos, lo que sea menor. Examine la tabla Método para determinar cuántos componentes incluyó Minitab en el modelo. También puede examinar la gráfica Selección del modelo.

Cuando utilice PLS, seleccione un modelo con el menor número de componentes que expliquen una cantidad suficiente de la variabilidad en los predictores y las respuestas. Para determinar el mejor número de componentes para sus datos, examine la tabla Selección del modelo, incluyendo los valores de varianza de X, R2 y R2 pronosticado. El R2 pronosticado indica la capacidad predictiva del modelo y solo se muestra si usted realiza una validación cruzada.

En algunos casos, usted puede decidir usar un modelo diferente del modelo seleccionado inicialmente por Minitab. Si utilizó validación cruzada, compare el R2 y el R2 pronosticado. Consideremos un ejemplo donde retirar dos componentes del modelo que Minitab seleccionó solo reduce ligeramente el R2 pronosticado. Debido a que el R2 pronosticado disminuyó muy levemente, el modelo no está sobreajustado y es posible que usted decida que es el más conveniente para sus datos.

Un R2 pronosticado que sea sustancialmente menor que R2 puede indicar que el modelo está sobreajustado. Un modelo sobreajustado se produce cuando agrega términos o componentes de los efectos que no son importantes en la población, aunque pueden parecer importantes en los datos de la muestra. El modelo se adapta a los datos de la muestra y, por lo tanto, es posible que no sea útil para hacer predicciones acerca de la población.

Si no utiliza validación cruzada, puede examinar los valores de varianza de X en la tabla Selección del modelo para determinar cuánta varianza en la respuesta es explicada por cada modelo.

Método

Validación cruzadaDejar uno fuera
Componentes a evaluarConjunto
Número de componentes evaluados10
Número de componentes seleccionados4

Método

Validación cruzadaNinguno
Componentes a calcularConjunto
Número de componentes calculados10
Resultado clave: Número de componentes

En estos resultados, en la primera tabla Método se utilizó validación cruzada y se seleccionó el modelo con 4 componentes. En la segunda tabla Método, no se usó validación cruzada. Minitab utiliza el modelo con 10 componentes, que es el valor predeterminado.

Selección y validación de modelo para Aroma

ComponentesVarianza
de X
ErrorR-cuadradoPRESSR-cuadrado
(pred.)
10.15884914.93890.63743523.34390.433444
20.44226712.29660.70156421.09360.488060
30.5229777.97610.80642019.61360.523978
40.5945466.65190.83855918.16830.559056
5  5.85300.85794819.26750.532379
6  5.01230.87835222.37390.456988
7  4.31090.89537424.00410.417421
8  4.08660.90081824.77360.398747
9  3.58860.91290424.90900.395460
10  3.27500.92051624.82930.397395
Resultado clave: Varianza de X, R-cuad., R-cuad. (pred)

En estos resultados, Minitab seleccionó el modelo con 4 componentes que tiene un valor de R2 pronosticado de aproximadamente 56%. Con base en la varianza de X, el modelo con 4 componentes explica casi el 60% de la varianza en los predictores. A medida que aumenta el número de componentes, también aumenta el valor de R2, pero el R2 pronosticado disminuye, lo que indica que es probable que los modelos con más componentes estén sobreajustados.

Paso 2. Determinar si los datos contienen valores atípicos o puntos de apalancamiento

Para determinar si el modelo se ajusta adecuadamente a los datos, debe examinar gráficas para tratar de detectar valores atípicos, puntos de apalancamiento y otros patrones. Si los datos contienen muchos valores atípicos o puntos de apalancamiento, es posible que el modelo no haga predicciones válidas.

Puede examinar las gráficas de residuos, incluyendo la gráfica de residuos vs. apalancamiento. En la gráfica de residuos vs. apalancamiento, busque lo siguiente:
  • Valores atípicos: Observaciones con residuos estandarizados grandes que se encuentren fuera de las líneas de referencia horizontales de la gráfica.
  • Puntos de apalancamiento: Las observaciones con valores de apalancamiento tienen puntuaciones de X alejadas del cero y se encuentran a la derecha de la línea de referencia vertical.

Para obtener más información sobre la gráfica de residuos vs. apalancamiento, vaya a Gráficas para Regresión de cuadrados mínimos parciales.

En esta gráfica, hay dos puntos que pueden ser puntos de apalancamiento, porque están a la derecha de la línea vertical. Hay tres puntos que pueden ser valores atípicos, porque están por encima y por debajo de las líneas de referencia horizontales. Estos puntos pueden investigarse para determinar cómo afectan el ajuste del modelo.
También puede examinar la gráfica de respuestas para determinar qué tan bien el modelo se ajusta y predice cada observación. Al examinar esta gráfica, busque lo siguiente:
  • Un patrón no lineal en los puntos, que indica que el modelo no puede ajustarse ni predecir los datos adecuadamente.
  • Si realiza una validación cruzada, diferencias grandes en los valores ajustados y los valores ajustados con validación cruzada, que indican un punto de apalancamiento.
En esta gráfica, los puntos siguen un patrón lineal en general, lo que indica que el modelo se ajusta a los datos adecuadamente. Los puntos que aparecen en la gráfica anterior de residuos vs. apalancamiento no parecen ser un problema en esta gráfica.
En esta gráfica se utilizó validación cruzada, por lo que la gráfica muestra los valores ajustados y los valores ajustados con validación cruzada. La gráfica no revela grandes diferencias entre las respuestas ajustadas y las respuestas ajustadas con validación cruzada.

Paso 3. Validar el modelo PLS con un conjunto de datos de prueba

Con frecuencia, la regresión PLS se realiza en dos pasos. El primer paso, a veces denominado entrenamiento, consiste en calcular un modelo de regresión PLS para un conjunto de datos de muestra (también conocido como conjunto de datos de entrenamiento). El segundo paso consiste en validar este modelo con un conjunto diferente de datos, que suele llamarse conjunto de datos de prueba. Para validar el modelo con el conjunto de datos de prueba, ingrese las columnas de los datos de prueba en el cuadro de diálogo secundario Predicción. Minitab calcula los nuevos valores de respuesta para cada observación en el conjunto de datos de prueba y compara la respuesta pronosticada con la respuesta real. Con base en comparación, Minitab calcula el R2 de prueba, que indica la capacidad del modelo para predecir nuevas respuestas. Valores más altos del R2 de prueba indican que el modelo tiene una mayor capacidad predictiva.

Si utiliza validación cruzada, compare la prueba R2 con el R2-cuadrado pronosticado. Lo ideal es que estos valores sean similares. Una prueba R2 que es significativamente más pequeña que el R2 pronosticado indica que la validación cruzada es muy optimista acerca de la capacidad de predicción del modelo o que las dos muestras de datos pertenecen a poblaciones diferentes.

Si el conjunto de datos de prueba no incluye valores de respuesta, Minitab no calcula un R2 de prueba.

Respuesta pronosticada para las nuevas observaciones utilizando modelo para Grasa

FilaAjusteEE de ajusteIC de 95%IP de 95%
118.73720.378459(17.9740, 19.5004)(16.8612, 20.6132)
215.37820.362762(14.6466, 16.1098)(13.5149, 17.2415)
320.78380.491134(19.7933, 21.7743)(18.8044, 22.7632)
414.36840.544761(13.2698, 15.4670)(12.3328, 16.4040)
516.60160.348485(15.8988, 17.3044)(14.7494, 18.4538)
620.74710.472648(19.7939, 21.7003)(18.7861, 22.7080)
R-cuadrado de prueba: 0.762701
Resultado clave: R2 de prueba

En estos resultados, el R2 de prueba es aproximadamente 76%. El R2 pronosticado para el conjunto de datos original es aproximadamente 78%. Puesto que estos valores son similares, usted puede concluir que el modelo tiene una capacidad predictiva adecuada.