Tabla Selección y validación del modelo para Regresión de mínimos cuadrados parciales

Encuentre definiciones y ayuda para interpretar cada estadístico incluido en la tabla Selección del modelo.

Componentes

Los componentes representan el número de componentes incluidos en cada modelo. Minitab muestra el modelo con 1 componente, con 2 componentes, y así sucesivamente, hasta incluir el número de componentes que usted especificó. Si no especifica el número de componentes que se deben incluir en el modelo, Minitab muestra los estadísticos de selección de modelo para 10 componentes, o el número de predictores, lo que sea menor.

Varianza de X

La varianza de X es la cantidad de varianza en los términos que es explicada por el modelo. El valor de la varianza de X está entre 0 y 1

Mientras más cerca de 1 esté el valor de la varianza de X, mejor representarán los componentes al conjunto original de términos. Si tiene más de 1 respuesta, el valor de la varianza de X es igual para todas las respuestas.

Error

El error es la suma de los cuadrados del error, que es la suma de los residuos elevados al cuadrado. Cuantifica la variación en los datos que no es explicada por el modelo. Para el modelo final, el error coincide con la SC del error residual que se muestra en la tabla ANOVA del modelo final.

R-cuad.

El R2 es el porcentaje de variación en la respuesta que es explicada por el modelo. Se calcula como 1 menos la relación de la suma de los cuadrados del error (que es la variación que no es explicada por el modelo) a la suma total de los cuadrados (que es la variación total en el modelo).

Interpretación

Utilice el R2 para determinar qué tan bien se ajusta el modelo a los datos Mientras mayor sea el valor de R2, mejor se ajustará el modelo a los datos. El R2 siempre está entre 0% y 100%.

Usted puede utilizar una gráfica de línea ajustada para ilustrar gráficamente diferentes valores de R2. La primera gráfica ilustra un modelo de regresión simple que explica un 85.5% de la variación en la respuesta. La segunda gráfica ilustra un modelo que explica un 22.6% de la variación en la respuesta. Mientras mayor sea la variable que es explicada por el modelo, más cerca estarán los puntos de los datos de la línea de regresión ajustada. Teóricamente, si un modelo pudiera explicar el 100% de la variación, los valores ajustados siempre serían iguales a los valores observados y todos los puntos de los datos estarían sobre la línea ajustada. Sin embargo, incluso si el R2 es 100%, el modelo no necesariamente predice las nuevas observaciones de manera adecuada.
Considere los siguientes problemas cuando interprete el valor R2:
  • El R2 siempre se incrementa cuando usted agrega predictores adicionales a un modelo. Por ejemplo, el mejor modelo de cinco predictores siempre tendrá un R2 que será al menos tan alto como el mejor modelo de cuatro predictores. Por lo tanto, el R2 es más útil cuando se comparan modelos del mismo tamaño.

  • Las muestras pequeñas no proporcionan una estimación precisa de la fuerza de la relación entre la respuesta y los predictores. Si necesita que el R2 sea más preciso, debe utilizar una muestra más grande (generalmente, 40 o más).

  • El R2 es solo una medida de qué tan bien el modelo se ajusta a los datos. Incluso cuando un modelo tenga un R2 alto, usted deberá revisar las gráficas de residuos para verificar que el modelo cumpla con los supuestos del modelo.

R-cuad.(pred)

El R2 pronosticado indica qué tan bien es pronosticada la respuesta por cada modelo calculado y solo se calcula cuando usted realiza la validación cruzada. Si los datos incluyen una variable de respuesta, Minitab selecciona el modelo PLS con el R2 pronosticado más alto. Si los datos incluyen múltiples variables de respuesta, Minitab selecciona el modelo PLS con la media más alta de R2 pronosticado para todas las variables de respuesta. El R2 pronosticado se calcula eliminando sistemáticamente cada una de las observaciones del conjunto de datos, estimando la ecuación de regresión y determinando qué tan bien predice el modelo la observación que se eliminó. El valor del R2 pronosticado oscila entre 0% y 100%.

Interpretación

Utilice el R2 pronosticado para determinar qué tan bien el modelo predice la respuesta para nuevas observaciones. Los modelos que tienen valores más grandes de R2 pronosticado tienen mejor capacidad de predicción.

Un R2 pronosticado que sea sustancialmente menor que el R2 puede indicar que el modelo está sobreajustado. Un modelo sobreajustado se produce cuando se agregan términos para efectos que no son importantes en la población. El modelo se adapta a los datos de la muestra y, por lo tanto, es posible que no sea útil para hacer predicciones acerca de la población.

Para determinar si el modelo seleccionado por validación cruzada es el más apropiado, examine los valores de R2 y R2 pronosticado. En algunos casos, es posible que usted decida utilizar un modelo diferente del seleccionado por validación cruzada. Considere un ejemplo en el que la adición de dos componentes al modelo que selecciona Minitab, aumenta significativamente R2 y disminuye ligeramente el R2 pronosticado. Debido a que el R2 pronosticado disminuyó muy levemente, el modelo no está sobreajustado y es posible que usted decida que es el más conveniente para sus datos.

PRESS

La suma de los cuadrados de error de predicción (PRESS) es una medida de la desviación entre los valores ajustados y los valores observados. PRESS es similar a la suma de cuadrados del error residual (SSE), que es la suma de residuos cuadrados. Sin embargo, PRESS utiliza un cálculo diferente para los residuos. La fórmula utilizada para calcular PRESS es equivalente a eliminar sistemáticamente cada una de las observaciones del conjunto de datos, estimando la ecuación de regresión y determinando hasta qué punto el modelo predice la observación eliminada.

Interpretación

Utilice PRESS para evaluar la capacidad de predicción del modelo. Por lo general, mientras más pequeño sea el valor de PRESS, mejor capacidad de predicción tendrá el modelo. Minitab utiliza PRESS para calcular el R2 de predicción, que generalmente se interpreta de un modo más intuitivo. En total, estas estadísticas pueden prevenir un ajuste excesivo del modelo. Un ajuste excesivo del modelo ocurre cuando se agregan términos para efectos que no son importantes en la población, aunque pueden parecer importantes en los datos de la muestra. El modelo pasa a estar a la medida de los datos de la muestra y, por lo tanto, podría no ser de utilidad para hacer predicciones sobre la población.

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política