Análisis de la tabla de varianza para Ajustar modelo de regresióny Regresión lineal

Encuentre definiciones e interpretaciones para cada uno de los estadísticos incluidos en la tabla Análisis de varianza.

En este tema

GL
SC Ajust.
CM Ajust.
SC sec.
CM sec.
Contribución
Valor F
Valor p – Regresión
Valor p – Término
Valor p – Falta de ajuste

GL

Los grados de libertad total (GL) son la cantidad de información en los datos. El análisis utiliza esa información para estimar los valores de los parámetros de población infinita. El GL total está determinado por el número de observaciones en la muestra. El GL de un término muestra cuánta información utiliza el término. Si incrementa el tamaño de la muestra, obtendrá más información sobre la población, con lo cual aumentan los GL total. Si incrementa el número de términos en su modelo, utilizará más información, con lo cual disminuyen los GL disponibles para estimar la variabilidad de los estimados de parámetros.

Si se cumplen dos condiciones, entonces Minitab particiona los GL para error. La primera condición es que debe haber términos que se pueden ajustar con los datos que no están incluidos en el modelo actual. Por ejemplo, si se tiene un predictor continuo con 3 o más valores distintos, se puede estimar un término cuadrático para ese predictor. Si el modelo no incluye el término cuadrático, entonces no está incluido en el modelo un término que los datos pueden ajustar y se cumple esta condición.

La segunda condición es que los datos contienen replicas. Las replicas son observaciones donde cada predictor tiene el mismo valor. Por ejemplo, si se tienen 3 observaciones en las que la presión es de 5 y la temperatura es de 25, entonces esas 3 observaciones son replicas.

Si se cumplen las dos condiciones, entonces las dos partes de los GL para error son falta de ajuste y error puro. Los GL para la falta de ajuste permiten probar si la forma del modelo es adecuada. La prueba de falta de ajuste utiliza los grados de libertad para la falta de ajuste. Mientras más GL para error puro, mayor es la potencia de la prueba de falta de ajuste.

SC Ajust.

Las sumas ajustadas de los cuadrados son medidas de variación para los diferentes componentes del modelo. El orden de los predictores en el modelo no afecta el cálculo de las sumas ajustadas de los cuadrados. En la tabla Análisis de varianza, Minitab separa las sumas de los cuadrados en diferentes componentes que describen la variación que se debe a fuentes diferentes.

Término SC Ajust.: La suma de cuadrados ajustada de un término es el aumento en la suma de cuadrados de regresión en comparación de solamente un modelo con los otros términos. Cuantifica la cantidad de variación en los datos de respuesta que se explica por cada término en el modelo.
Error de SC Ajust.: La suma de los cuadrados del error es la suma de los residuos elevados al cuadrado. Cuantifica la variación en los datos que los predictores no explican.
SC Ajust. total: La suma total de los cuadrados es la suma del término suma de los cuadrados y el error en la suma de los cuadrados. Cuantifica la variación total en los datos.

Interpretación

Minitab utiliza las sumas ajustadas de los cuadrados para calcular el valor p de un término. Minitab también utiliza las sumas de los cuadrados para calcular el estadístico R². Por lo general, se interpretan los valores p y el estadístico R² en lugar de las sumas de los cuadrados.

CM Ajust.

Los cuadrados medios ajustados miden qué tanta variación explica un término o un modelo, asumiendo que todos los demás términos están en el modelo, independientemente del orden en el que se ingresaron. A diferencia de las sumas ajustadas de los cuadrados, los cuadrados medios ajustados consideran los grados de libertad.

El cuadrado medio ajustado del error (también llamado MSE o s²) es la varianza alrededor de los valores ajustados.

Interpretación

Minitab utiliza los cuadrados medios ajustados para calcular el valor p de un término. Minitab también utiliza los cuadrados medios ajustados para calcular el estadístico de R² ajustado. Generalmente, se interpretan los valores p y el estadístico de R² ajustado en lugar de los cuadrados medios ajustados.

SC sec.

Las sumas secuenciales de los cuadrados son medidas de variación para diferentes componentes del modelo. A diferencia de las sumas ajustadas de los cuadrados, las sumas secuenciales de los cuadrados dependen del orden en el que los términos son ingresados en el modelo. En la tabla Análisis de varianza, Minitab separa las sumas secuenciales de los cuadrados en diferentes componentes que describen la variación que se debe a diferentes fuentes.

SC sec. de regresión: La suma de los cuadrados de regresión es la suma de las desviaciones cuadráticas de los valores de respuesta ajustados con respecto al valor de respuesta medio. Cuantifica la cantidad de variación en los datos de respuesta que es explicada por el modelo.
Término SC Sec.: Las sumas secuenciales de cuadrados para un término es la porción única de la variación explicada por un término que no está explicado por los factores ingresados previamente. Cuantifica la cantidad de variación en los datos de respuesta que se explica por cada término como si fuera agregado secuencialmente al modelo.
Error de SC Sec: La suma de los cuadrados del error es la suma de los residuos elevados al cuadrado. Cuantifica la variación en los datos que los predictores no explican.
SC sec. total: La suma total de los cuadrados es la suma de los cuadrados de los términos secuenciales y la suma de los cuadrados del error. Cuantifica la variación total en los datos.

Interpretación

Por opción predeterminada, las sumas ajustadas de los cuadrados se usan para calcular el valor p de un término. Cuando sea adecuado, usted puede calcular el valor p de un término a partir de la suma secuencial de los cuadrados. Generalmente se interpreta los valores p en lugar de las sumas de los cuadrados.

CM sec.

Los cuadrados medios secuenciales miden en qué medida una variación explica un término o un modelo. Los cuadrados medios secuenciales dependen del orden en que los términos sean ingresados en el modelo. A diferencia de las sumas de cuadrados secuenciales, los cuadrados medios secuenciales consideran los grados de libertad.

El error del cuadrado medio secuencial (también llamado MSE o s²) es la varianza alrededor de los valores ajustados.

Interpretación

Minitab utiliza los cuadrados medios secuenciales para calcular el valor p de un término. Minitab también utiliza los cuadrados medios secuenciales para calcular el estadístico de R² ajustado. Generalmente, se interpretan los valores p y el estadístico de R² ajustado en lugar de los cuadrados medios secuenciales.

Contribución

La contribución muestra el porcentaje con el que cada fuente en la tabla Análisis de varianza contribuye a las sumas de cuadrados secuenciales totales (SC Sec.).

Interpretación

Porcentajes mayores indican que la fuente representa más de la variación en la respuesta.

Valor F

En la tabla Análisis de varianza aparece un valor F para cada término:

Valor F para el modelo o los términos: El valor F es el estadístico de prueba usado para determinar si el término está asociado con la respuesta.
Valor F para la prueba de falta de ajuste: El valor F es la estadística de prueba usada para determinar si al modelo le están faltando los términos de orden superior que incluyan los predictores en el modelo actual.

Interpretación

Minitab utiliza el valor F para calcular el valor p, que se usa para tomar una decisión acerca de la significancia estadística de los términos y el modelo. El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula. Las probabilidades más bajas proporcionan una evidencia más fuerte en contra de la hipótesis nula.

Un valor F suficientemente grande indica que el término o el modelo es significativo.

Si desea usar el valor F para determinar si puede rechazar la hipótesis nula, compare el valor F con su valor crítico. Puede calcular el valor crítico en Minitab o buscar el valor crítico en una tabla de la distribución F en la mayoría de los libros de estadística. Para obtener más información sobre cómo usar Minitab para calcular el valor crítico, vaya a Uso de la función de distribución acumulada inversa (ICDF) y haga clic en "Usar la ICDF para calcular los valores críticos".

Valor p – Regresión

El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula. Las probabilidades más bajas proporcionan una evidencia más fuerte en contra de la hipótesis nula.

Interpretación

Para determinar si el modelo explica la variación en la respuesta, compare el valor p del modelo con el nivel de significancia para evaluar la hipótesis nula. La hipótesis nula para la regresión general es que el modelo no explica ninguna variación en la respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que el modelo explica la variación en la respuesta cuando no es así.

Valor p ≤ α: El modelo explica la variación en la respuesta: Si el valor p es menor que o igual al nivel de significancia, usted concluye que el modelo explica la variación en la respuesta.
Valor p > α: No hay suficiente evidencia para concluir que el modelo explica la variación en la respuesta: Si el valor p es mayor que el nivel de significancia, usted no puede concluir que el modelo explica la variación en la respuesta. Convendría que ajuste un nuevo modelo.

Valor p – Término

El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula. Las probabilidades más bajas proporcionan una evidencia más fuerte en contra de la hipótesis nula.

Interpretación

Para determinar si la asociación entre la respuesta y cada término incluido en el modelo es estadísticamente significativa, compare el valor p del término con el nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que no hay asociación entre el término y la respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real.

Valor p ≤ α: La asociación es estadísticamente significativa: Si el valor p es menor que o igual al nivel de significancia, usted puede concluir que hay una asociación estadísticamente significativa entre la variable de respuesta y el término.
Valor p > α: La asociación no es estadísticamente significativa: Si el valor p es mayor que el nivel de significancia, usted no puede concluir que existe una asociación estadísticamente significativa entre la variable de respuesta y el término. Convendría que vuelva a ajustar el modelo sin el término.; Si hay múltiples predictores sin una asociación estadísticamente significativa con la respuesta, usted puede reducir el modelo eliminando términos uno a la vez. Para obtener más información sobre cómo eliminar términos del modelo, vaya a Reducción del modelo.

Si un término del modelo es estadísticamente significativo, la interpretación depende del tipo de término. Las interpretaciones son las siguientes:

Si un predictor continuo es significativo, usted puede concluir que el coeficiente del predictor no es igual a cero.
Si un predictor categórico es significativo, usted puede concluir que no todas las medias de nivel son iguales.
Si un término de interacción es significativo, usted puede concluir que la relación entre un predictor y la respuesta depende del resto de los predictores incluidos en el término.
Si un término polinómico es significativo, usted puede concluir que los datos contienen curvatura.

Valor p – Falta de ajuste

El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula. Las probabilidades más bajas proporcionan una evidencia más fuerte en contra de la hipótesis nula. Minitab realiza automáticamente la prueba de falta de ajuste para el error puro cuando los datos contienen réplicas, que son múltiples observaciones con valores idénticos de X. Las réplicas representan el "error puro", porque solo la variación aleatoria puede causar diferencias entre los valores de respuesta observados.

Interpretación

Para determinar si el modelo especifica correctamente la relación entre la respuesta y los predictores, compare el valor p de la prueba de falta de ajuste con el nivel de significancia para evaluar la hipótesis nula. La hipótesis nula para la prueba de falta de ajuste es que el modelo especifica correctamente la relación entre la respuesta y los predictores. Por lo general, un nivel de significancia (denotado como alfa o α) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que el modelo no especifica correctamente la relación entre la respuesta y los predictores cuando el modelo sí especifica la relación correcta.

Valor p ≤ α: La falta de ajuste es estadísticamente significativa: Si el valor p es menor que o igual al nivel de significancia, usted concluye que el modelo no especifica correctamente la relación. Para mejorar el modelo, es posible que tenga que agregar términos o transformar los datos.
Valor p > α: La falta de ajuste no es estadísticamente significativa: Si el valor p es mayor que el nivel de significancia, la prueba no detecta ninguna falta de ajuste.