Ejemplo de Regresión de cuadrados mínimos parciales con validación cruzada

Un productor de vino desea saber cómo se relaciona la composición química de su vino con las evaluaciones sensoriales. El productor tiene 37 muestras de vino Pinot Noir, cada una de las cuales se describe mediante 17 concentraciones de elementos (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) y una puntuación para el aroma del vino por parte de un panel de jueces. El productor quiere predecir la puntuación de aroma de los 17 elementos. Losdatosprocedende: I.E. Frank y B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta, 162, 241 − 251.

El productor desea incluir en el modelo todas las concentraciones y todas las interacciones de 2 factores que incluyan el cadmio (Cd). Puesto que la relación de muestras a predictores es baja, el productor decide utilizar la regresión de mínimos cuadrados parciales.

  1. Abra los datos de muestra AromaVino.MTW.
  2. Elija Estadísticas > Regresión > Mínimos cuadrados parciales.
  3. En Respuestas, ingrese Aroma.
  4. En Modelo, ingrese Cd-KCd*MoCd*MnCd*NiCd*CuCd*AlCd*BaCd*CrCd*SrCd*PbCd*BCd*MgCd*SiCd*NaCd*CaCd*PCd*K.
  5. Haga clic en Opciones.
  6. En Validación cruzada, seleccione Dejar uno fuera. Haga clic en Aceptar.
  7. Haga clic en Gráficas. Seleccione Gráfica de selección de modelo. Desmarque Gráfica de respuesta y Gráfica de coeficientes.
  8. Haga clic en Aceptar en cada cuadro de diálogo.

Interpretar los resultados

La gráfica de selección del modelo identifica el modelo con 4 componentes como el modelo óptimo, porque el modelo de 4 componentes tiene el valor más alto de R2 pronosticado. Los valores de R2 pronosticados que aparecen en la gráfica se calculan con validación cruzada. La tabla Selección y validación del modelo muestra que el valor de R2 pronosticado para el modelo óptimo es aproximadamente 0.56. Minitab utiliza el modelo óptimo para los cálculos de análisis de varianza. El modelo óptimo es estadísticamente significativo en el nivel de significancia de 0.05, porque el valor p es aproximadamente 0.000.

Método

Validación cruzadaDejar uno fuera
Componentes a evaluarConjunto
Número de componentes evaluados10
Número de componentes seleccionados4

Análisis de varianza de Aroma

FuenteGLSCMCFP
Regresión434.55148.6378441.550.000
Error residual326.65190.20787   
Total3641.2032     

Selección y validación de modelo para Aroma

ComponentesVarianza
de X
ErrorR-cuadradoPRESSR-cuadrado
(pred.)
10.15884914.93890.63743523.34390.433444
20.44226712.29660.70156421.09360.488060
30.5229777.97610.80642019.61360.523978
40.5945466.65190.83855918.16830.559056
5  5.85300.85794819.26750.532379
6  5.01230.87835222.37390.456988
7  4.31090.89537424.00410.417421
8  4.08660.90081824.77360.398747
9  3.58860.91290424.90900.395460
10  3.27500.92051624.82930.397395