Tabla Selección y validación del modelo para Regresión de cuadrados mínimos parciales

Encuentre definiciones y ayuda para interpretar cada estadístico incluido en la tabla Selección del modelo.

Componentes

Los componentes representan el número de componentes incluidos en cada modelo. Minitab muestra el modelo con 1 componente, con 2 componentes, y así sucesivamente, hasta incluir el número de componentes que usted especificó. Si no especifica el número de componentes que se deben incluir en el modelo, Minitab muestra los estadísticos de selección de modelo para 10 componentes, o el número de predictores, lo que sea menor.

Varianza de X

La varianza de X es la cantidad de varianza en los términos que es explicada por el modelo. El valor de la varianza de X está entre 0 y 1

Mientras más cerca de 1 esté el valor de la varianza de X, mejor representarán los componentes al conjunto original de términos. Si tiene más de 1 respuesta, el valor de la varianza de X es igual para todas las respuestas.

Error

El error es la suma de los cuadrados del error, que es la suma de los residuos elevados al cuadrado. Cuantifica la variación en los datos que no es explicada por el modelo. Para el modelo final, el error coincide con la SC del error residual que se muestra en la tabla ANOVA del modelo final.

R-cuad.

R2 es el porcentaje de variación en la respuesta que se explica por el modelo. Se calcula como 1 menos la relación de la suma de los cuadrados del error (que es la variación que no es explicada por el modelo) a la suma total de los cuadrados (que es la variación total en el modelo).

Interpretación

Utilice el R2 para determinar qué tan bien se ajusta el modelo a los datos Mientras mayor sea el valor de R2, mejor se ajustará el modelo a los datos. R2 siempre está entre 0% y 100%.

Usted puede utilizar una gráfica de línea ajustada para ilustrar gráficamente diferentes valores de R2. La primera gráfica ilustra un modelo de regresión simple que explica un 85.5% de la variación en la respuesta. La segunda gráfica ilustra un modelo que explica un 22.6% de la variación en la respuesta. Mientras mayor sea la variable que es explicada por el modelo, más cerca estarán los puntos de los datos de la línea de regresión ajustada. Teóricamente, si un modelo pudiera explicar el 100% de la variación, los valores ajustados siempre serían iguales a los valores observados y todos los puntos de los datos estarían sobre la línea ajustada. Sin embargo, incluso si el R2 es 100%, el modelo no necesariamente predice las nuevas observaciones de manera adecuada.
Tenga en cuenta los siguientes problemas al interpretar el valor R2:
  • R2 siempre aumenta cuando se agregan más predictores a un modelo. Por ejemplo, el mejor modelo de cinco predictores siempre tendrá un R2 que será al menos tan alto como el mejor modelo de cuatro predictores. Por lo tanto, R2 es más útil cuando se comparan modelos del mismo tamaño.

  • Las muestras pequeñas no proporcionan una estimación precisa de la fuerza de la relación entre la respuesta y los predictores. Por ejemplo, si necesita que R2 sea más preciso, debe utilizar una muestra más grande (generalmente, 40 o más).

  • Los estadísticos de bondad de ajuste son simplemente una medida de qué tan bien se ajusta el modelo a los datos. Incluso cuando un modelo tenga un valor deseable, usted deberá revisar las gráficas de residuos para verificar que el modelo cumpla con los supuestos del modelo.

R-sq (pred)

Predicted R2 indicates how well each calculated model predicts the response and is only calculated when you perform cross-validation. If one response variable is in the data, Minitab selects the PLS model with the highest predicted R2. If multiple response variables are in the data, Minitab selects the PLS model with the highest mean predicted R2 for all of the response variables. Predicted R2 is calculated by systematically removing each observation from the data set, estimating the regression equation, and determining how well the model predicts the removed observation. The value of predicted R2 ranges between 0% and 100%. (While the calculations for predicted R2 can produce negative values, Minitab displays zero for these cases.)

Interpretation

Utilice R2 pronosticado para determinar qué tan bien el modelo predice la respuesta para nuevas observaciones.Los modelos que tienen valores más grandes de R2 pronosticado tienen mejor capacidad de predicción.

Un R2 pronosticado que sea sustancialmente menor que R2 puede indicar que el modelo está sobreajustado. Un modelo sobreajustado se produce cuando se agregan términos para efectos que no son importantes en la población. El modelo se adapta a los datos de la muestra y, por lo tanto, es posible que no sea útil para hacer predicciones acerca de la población.

Para determinar si el modelo seleccionado por validación cruzada es el más apropiado, examine los valores de R2 y R2 pronosticado. En algunos casos, es posible que usted decida utilizar un modelo diferente del seleccionado por validación cruzada. Considere un ejemplo en el que la adición de dos componentes al modelo que selecciona Minitab, aumenta significativamente R2 y disminuye ligeramente el R2 pronosticado. Debido a que el R2 pronosticado disminuyó muy levemente, el modelo no está sobreajustado y es posible que usted decida que es el más conveniente para sus datos.

PRESS

La suma de los cuadrados de error de predicción (PRESS) es una medida de la desviación entre los valores ajustados y los valores observados. PRESS es similar a la suma de cuadrados del error residual (SSE), que es la suma de residuos cuadrados. Sin embargo, PRESS utiliza un cálculo diferente para los residuos. La fórmula utilizada para calcular PRESS es equivalente a eliminar sistemáticamente cada una de las observaciones del conjunto de datos, estimando la ecuación de regresión y determinando hasta qué punto el modelo predice la observación eliminada.

Interpretación

Utilice PRESS para evaluar la capacidad de predicción del modelo. Por lo general, mientras más pequeño sea el valor de PRESS, mejor capacidad de predicción tendrá el modelo. Minitab utiliza PRESS para calcular el R2 de predicción, que generalmente se interpreta de un modo más intuitivo. En total, estas estadísticas pueden prevenir un ajuste excesivo del modelo. Un ajuste excesivo del modelo ocurre cuando se agregan términos para efectos que no son importantes en la población, aunque pueden parecer importantes en los datos de la muestra. El modelo pasa a estar a la medida de los datos de la muestra y, por lo tanto, podría no ser de utilidad para hacer predicciones sobre la población.