Tabla Selección y validación del modelo para Regresión de mínimos cuadrados parciales

Encuentre definiciones y ayuda para interpretar cada estadístico incluido en la tabla Selección del modelo.

Componentes

Los componentes representan el número de componentes incluidos en cada modelo. Minitab muestra el modelo con 1 componente, con 2 componentes, y así sucesivamente, hasta incluir el número de componentes que usted especificó. Si no especifica el número de componentes que se deben incluir en el modelo, Minitab muestra los estadísticos de selección de modelo para 10 componentes, o el número de predictores, lo que sea menor.

Varianza de X

La varianza de X es la cantidad de varianza en los términos que es explicada por el modelo. El valor de la varianza de X está entre 0 y 1

Mientras más cerca de 1 esté el valor de la varianza de X, mejor representarán los componentes al conjunto original de términos. Si tiene más de 1 respuesta, el valor de la varianza de X es igual para todas las respuestas.

Error

El error es la suma de los cuadrados del error, que es la suma de los residuos elevados al cuadrado. Cuantifica la variación en los datos que no es explicada por el modelo. Para el modelo final, el error coincide con la SC del error residual que se muestra en la tabla ANOVA del modelo final.

R-cuad.

El R2 es el porcentaje de variación en la respuesta que es explicada por el modelo. Se calcula como 1 menos la relación del error de la suma de cuadrados (que es la variación que no está explicada por el modelo) con la suma total de cuadrados (que es la variación total en el modelo).

Interpretación

Utilice R2 para determinar hasta qué punto el modelo se ajusta a sus datos. Mientras mayor sea el valor de R2, mejor se ajustará el modelo a sus datos. El R2 siempre se encuentra entre 0 y 100%.

Puede utilizar una gráfica de línea ajustada para ilustrar gráficamente valore de R2 diferentes. La primera gráfica ilustra un modelo de regresión simple que explica un 85.5 % de la variación en la respuesta. La segunda gráfica ilustra un modelo que explica un 22.6 % de la variación en la respuesta. Mientras mayor sea la variable que es explicada por el modelo, más cerca estarán los puntos de los datos a la línea de regresión ajustada. Teóricamente, si un modelo pudiera explicar el 100 % de la variación, los valores ajustados siempre serían iguales a los valores observados y todos los puntos de los datos se encontrarían sobre la línea de regresión ajustada. Sin embargo, incluso si R2 es 100 %, el modelo no necesariamente predice nuevas observaciones bien.
Considere los siguientes problemas cuando interprete el valor R2:
  • El R2 siempre se incrementa cuando usted agrega predictores adicionales a un modelo. Por ejemplo, el mejor modelo de cinco predictores siempre tendrá un R2 que sea al menos tan alto como el mejor modelo de cuatro predictores. Por lo tanto, R2 es más útil cuando compara modelos del mismo tamaño.

  • Las muestras pequeñas no proporcionan una estimación precisa de la resistencia de la relación entre la respuesta y los predictores. Si necesita que el R2 sea más preciso, debe utilizar una muestra más grande (generalmente, 40 o más).

  • El R2 es solo una medida de hasta qué punto el modelo se ajusta a los datos. Incluso cuando un modelo tiene un R2 alto,usted debe revisar las gráficas de residuos para verificar que el modelo cumpla con los supuestos del modelo.

R-cuad.(pred)

El R2 pronosticado indica qué tan bien es pronosticada la respuesta por cada modelo calculado y solo se calcula cuando usted realiza la validación cruzada. Si los datos incluyen una variable de respuesta, Minitab selecciona el modelo PLS con el R2 pronosticado más alto. Si los datos incluyen múltiples variables de respuesta, Minitab selecciona el modelo PLS con la media más alta de R2 pronosticado para todas las variables de respuesta. El R2 pronosticado se calcula eliminando sistemáticamente cada una de las observaciones del conjunto de datos, estimando la ecuación de regresión y determinando qué tan bien predice el modelo la observación que se eliminó. El valor del R2 pronosticado oscila entre 0% y 100%.

Interpretación

Utilice el R2 pronosticado para determinar hasta que punto su modelo predice la respuesta para las nuevas observaciones. Los modelos que tienen valores de R2 pronosticados más grandes tienen un mejor capacidad de predicción.

Un R2 pronosticado que sea sustancialmente menor que el R2 puede indicar que el modelo está sobreajustado. Un modelo sobreajustado se produce cuando agrega términos por efectos que no estén en la población. El modelo se adapta a la medida de los datos de la muestra, por lo tanto, es posible que no sea útil para hacer predicciones acerca de la población.

Para determinar si el modelo seleccionado por validación cruzada es el más apropiado, examine los valores de R2 y R2 pronosticado. En algunos casos, es posible que usted decida utilizar un modelo diferente del seleccionado por validación cruzada. Considere un ejemplo en el que la adición de dos componentes al modelo que selecciona Minitab, aumenta significativamente R2 y disminuye ligeramente el R2 pronosticado. Debido a que el R2 pronosticado disminuyó muy levemente, el modelo no está sobreajustado y es posible que usted decida que es el más conveniente para sus datos.

PRESS

La suma de los cuadrados de error de predicción (PRESS) es una medida de la desviación entre los valores ajustados y los valores observados. PRESS es similar a la suma de cuadrados del error residual (SSE), que es la suma de residuos cuadrados. Sin embargo, PRESS utiliza un cálculo diferente para los residuos. La fórmula utilizada para calcular PRESS es equivalente a eliminar sistemáticamente cada una de las observaciones del conjunto de datos, estimando la ecuación de regresión y determinando hasta qué punto el modelo predice la observación eliminada.

Interpretación

Utilice PRESS para evaluar la capacidad de predicción del modelo. Por lo general, mientras más pequeño sea el valor de PRESS, mejor capacidad de predicción tendrá el modelo. Minitab utiliza PRESS para calcular el R2 de predicción, que generalmente se interpreta de un modo más intuitivo. En total, estas estadísticas pueden prevenir un ajuste excesivo del modelo. Un ajuste excesivo del modelo ocurre cuando se agregan términos para efectos que no son importantes en la población, aunque pueden parecer importantes en los datos de la muestra. El modelo pasa a estar a la medida de los datos de la muestra y, por lo tanto, podría no ser de utilidad para hacer predicciones sobre la población.

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política