Reducción del modelo

La reducción del modelo consiste en la eliminación de términos del modelo, como el término correspondiente a una variable predictora o la interacción entre variables predictoras. La reducción del modelo permite simplificar un modelo y aumentar la precisión de las predicciones. Puede reducir los modelos en cualquier grupo de comandos de Minitab, incluyendo regresión, ANOVA, DOE y fiabilidad.

Un criterio para la reducción del modelo es la significancia estadística de un término. La eliminación de términos estadísticamente insignificantes incrementa la precisión de las predicciones del modelo. Para utilizar el criterio de significancia estadística, primero elija un nivel de significancia, como 0.05 o 0.15. A continuación, pruebe con diferentes términos para encontrar un modelo con tantos términos estadísticamente significativos como sea posible, pero sin términos estadísticamente insignificantes. Para utilizar el criterio de significancia estadística, los datos deben proporcionar suficientes grados de libertad para estimar la significancia estadística después de que se ajuste el modelo. Puede aplicar el criterio de significancia estadística de forma manual, o automáticamente con un procedimiento algorítmico, como la regresión escalonada. El propósito del criterio de significancia estadística es encontrar un modelo que cumpla con los objetivos. Sin embargo, el criterio de significancia estadística siempre produce el mejor modelo.

Además del criterio de significancia estadística, otros criterios estadísticos que Minitab calcula para los modelos incluyen S, R² ajustado, R² pronosticado, PRESS, Cp de Mallows y el Criterio de información de Akaike (AIC). Puede considerar uno o más de estos criterios cuando reduzca un modelo.

Al igual que la regresión escalonada, la regresión de los mejores subconjuntos es un procedimiento algorítmico que se puede utilizar para encontrar un modelo que cumpla con los objetivos. La regresión de los mejores subconjuntos examina todos los modelos e identifica los modelos que tienen los valores más altos de R². En Minitab, la regresión de los mejores subconjuntos también muestra otros estadísticos, como el R² ajustado y el R² pronosticado. Puede considerar estos estadísticos al comparar modelos. Puesto que los mejores subconjuntos utilizan el R², los modelos que la regresión de los mejores subconjuntos identifica como los mejores modelos pudieran tener o no tener solo términos estadísticamente significativos. Otros criterios estadísticos que se deben considerar al reducir un modelo son la multicolinealidad y la jerarquía. Estos dos conceptos se examinan con mayor detalle más adelante.

Los estadísticos que miden qué tan bien se ajusta el modelo a los datos pueden ayudarle a encontrar un modelo útil. Sin embargo, también debe utilizar el conocimiento del proceso y el buen juicio para decidir qué términos debe eliminar. Algunos términos podrían ser esenciales, mientras que otros podrían resultar demasiado costosos o demasiado difíciles de medir.

Ejemplo de reducción de un modelo en un caso simple

Como parte de una prueba de energía térmica solar, unos técnicos miden el flujo total de calor. Un ingeniero en energía desea determinar la manera en que el flujo total de calor es pronosticado por otras variables: insolación (la posición de los puntos focales en las direcciones este, sur y norte) y la hora del día. Utilizando el modelo completo de regresión, el ingeniero determina la siguiente relación entre el flujo de calor y las variables.

Ecuación de regresión FlujoCalor = 325.4 + 2.55 Este + 3.80 Sur - 22.95 Norte + 0.0675 Insolación + 2.42 Hora del día

Coeficientes EE del Término Coef coef. Valor T Valor p FIV Constante 325.4 96.1 3.39 0.003 Este 2.55 1.25 2.04 0.053 1.36 Sur 3.80 1.46 2.60 0.016 3.18 Norte -22.95 2.70 -8.49 0.000 2.61 Insolación 0.0675 0.0290 2.33 0.029 2.32 Hora del día 2.42 1.81 1.34 0.194 5.37

El ingeniero desea eliminar tantos términos insignificantes como sea posible para maximizar la precisión de las predicciones. El ingeniero decide utilizar 0.05 como el valor umbral de significancia estadística. El valor p para Hora del día (0.194) es el valor p más alto que es mayor que 0.05, por lo que el ingeniero elimina ese término en primer lugar. El ingeniero repite la regresión, eliminando un término insignificante cada vez, hasta que solo queden términos estadísticamente significativos. El modelo final reducido es el siguiente:

Ecuación de regresión FlujoCalor = 483.7 + 4.796 Sur - 24.22 Norte

Coeficientes EE del Término Coef coef. Valor T Valor p FIV Constante 483.7 39.6 12.22 0.000 Sur 4.796 0.951 5.04 0.000 1.09 Norte -24.22 1.94 -12.48 0.000 1.09

Multicolinealidad

La multicolinealidad en regresión es una condición que ocurre cuando algunas variables predictoras incluidas en el modelo están correlacionadas con otras variables predictoras. La multicolinealidad severa es problemática, porque puede incrementar la varianza de los coeficientes de regresión, haciéndolos inestables. Cuando se elimina un término que tiene alta multicolinealidad, la significancia estadística y los valores de los coeficientes de los términos muy correlacionados pueden cambiar considerablemente. Por lo tanto, en presencia de multicolinealidad, el examinar múltiples estadísticos y cambiar el modelo un término a la vez es aún más importante. Por lo general, se debe reducir tanta multicolinealidad como sea posible antes de reducir un modelo. Para obtener más información sobre las maneras de reducir la multicolinealidad, vaya a Multicolinealidad en regresión.

Ejemplo de cómo la multicolinealidad interfiere con el criterio de significancia estadística

Un equipo de investigadores de un centro médico desarrolla un modelo para predecir las puntuaciones de satisfacción del paciente. El modelo contiene varias variables, incluyendo el tiempo que los pacientes pasan con un médico y el tiempo que los pacientes pasan en exámenes médicos. Con estas dos variables en el modelo, la multicolinealidad es alta, con valores de FIV (factor de inflación de la varianza) de 8.91. Los valores mayores que 5 suelen indicar una multicolinealidad severa. El valor p para la cantidad de tiempo que los pacientes pasan con un profesional es 0.105, que no es significativo en el nivel 0.05. El valor de R² pronosticado para este modelo es 22.9%.

Análisis de regresión: Satisfacción vs. Tiempo del profe, Tiempo de la pru

Resumen del modelo R-cuad. R-cuad. S R-cuad. (ajustado) (pred) 0.951953 28.68% 25.64% 22.91%

Coeficientes EE del Término Coef coef. Valor T Valor p FIV Constante -0.078 0.156 -0.50 0.618 Tiempo del profesional 0.1071 0.0648 1.65 0.105 8.91 Tiempo de la prueba -0.516 0.178 -2.90 0.006 8.91

El valor del R² pronosticado para el modelo que solo incluye el tiempo de los exámenes cae de 22.9% a 10.6%. Aunque el tiempo que los pacientes pasan con un médico no es estadísticamente significativo en el nivel 0.05, la inclusión de esa variable hace que el valor del R² pronosticado aumente más del doble. La alta multicolinealidad podría estar ocultando la importancia del predictor.

Análisis de regresión: Satisfacción vs. Tiempo de la prueba

Resumen del modelo R-cuad. R-cuad. S R-cuad. (ajustado) (pred) 0.968936 24.54% 22.96% 10.61%

Coeficientes EE del Término Coef coef. Valor T Valor p FIV Constante -0.162 0.150 -1.08 0.285 Tiempo de la prueba -0.2395 0.0606 -3.95 0.000 1.00

Jerarquía

Un modelo jerárquico es aquel en el que para cada término incluido en el modelo, todos los términos de orden inferior también se encuentran en el modelo. Por ejemplo, supongamos que un modelo tiene cuatro factores: A, B, C y D. Si el término A*B*C está en el modelo, entonces los términos A, B, C, A*B, A*C y B*C también deben estar en el modelo. No se requiere que haya términos con D en el modelo, porque D no está en el término A*B*C. La estructura jerárquica también se aplica a la anidación. Si B(A) está en el modelo, entonces A también debe estar en el modelo para que el modelo sea jerárquico.

La jerarquía es conveniente porque los modelos jerárquicos se pueden convertir de unidades estandarizadas a unidades no estandarizadas. Las unidades estandarizadas son comunes cuando el modelo incluye términos de orden superior como las interacciones, porque la estandarización reduce la multicolinealidad causada por esos términos.

Puesto que la jerarquía resulta conveniente, la reducción de los modelos jerárquicos es una práctica común. Por ejemplo, una estrategia es utilizar el criterio del valor p para reducir el modelo en combinación con la jerarquía. En primer lugar, se eliminan los términos más complejos que son estadísticamente insignificantes. Si un término estadísticamente insignificante es parte de un término de interacción o de un término de orden superior, entonces el término se mantiene en el modelo. La selección escalonada del modelo que ofrece Minitab puede utilizar el criterio de jerarquía y el criterio de significancia estadística.

Ejemplo de reducción de un modelo jerárquico

Un ingeniero de materiales que trabaja para un fabricante de productos de construcción está desarrollando un nuevo producto de aislamiento. El ingeniero diseña un experimento factorial completo de 2 niveles para evaluar varios factores que podrían afectar el valor de aislamiento del aislante. El ingeniero incluye las interacciones en el modelo para determinar si los efectos de los factores dependen unos de otros. Puesto que las interacciones crean multicolinealidad, el ingeniero codifica los predictores para reducir la multicolinealidad.

El valor p más alto del primer modelo que examina el ingeniero es 0.985 para la interacción entre temperatura de inyección y material. Debajo de la tabla de coeficientes codificados, el ingeniero puede examinar la ecuación de regresión en unidades no codificadas. La ecuación de regresión ayuda al ingeniero a entender el tamaño de los efectos en las mismas unidades que los datos.

Análisis de regresión: Aislamiento vs. PresIny, TempIny, TempEnfr, Material

Coeficientes codificados EE del Término Coef coef. Valor T Valor p FIV Constante 17.463 0.203 86.13 0.007 PresIny 1.835 0.203 9.05 0.070 2.00 TempIny 1.276 0.203 6.29 0.100 2.00 TempEnfr 2.173 0.203 10.72 0.059 2.00 Material Fórmula2 5.192 0.287 18.11 0.035 1.00 PresIny*TempIny -0.036 0.203 -0.18 0.887 2.00 PresIny*TempEnfr 0.238 0.203 1.17 0.449 2.00 TempIny*TempEnfr 1.154 0.203 5.69 0.111 2.00 PresIny*Material Fórmula2 -0.198 0.287 -0.69 0.615 2.00 TempIny*Material Fórmula2 -0.007 0.287 -0.02 0.985 2.00 TempEnfr*Material Fórmula2 -0.898 0.287 -3.13 0.197 2.00 PresIny*TempIny*TempEnfr 0.100 0.143 0.70 0.611 1.00 PresIny*TempIny*Material Fórmula2 0.181 0.287 0.63 0.642 2.00 PresIny*TempEnfr*Material Fórmula2 -0.385 0.287 -1.34 0.408 2.00 TempIny*TempEnfr*Material Fórmula2 -0.229 0.287 -0.80 0.570 2.00

Ecuación de regresión en unidades no codificadas Material Fórmula1 Aislamiento = 26.6 + 0.154 PresIny - 0.213 TempIny - 0.906 TempEnfr - 0.00138 PresIny*TempIny - 0.00267 PresIny*TempEnfr + 0.01137 TempIny*TempEnfr + 0.000036 PresIny*TempIny*TempEnfr Fórmula2 Aislamiento = 28.3 + 0.125 PresIny - 0.179 TempIny - 0.597 TempEnfr - 0.00073 PresIny*TempIny - 0.00369 PresIny*TempEnfr + 0.00831 TempIny*TempEnfr + 0.000036 PresIny*TempIny*TempEnfr

Si el ingeniero solamente utiliza el criterio del valor p para reducir el modelo, entonces el siguiente modelo es no jerárquico, porque se elimina una interacción de dos factores que forma parte de una interacción de tres factores. Puesto que el modelo es no jerárquico, no existen los coeficientes no codificados. Por lo tanto, la ecuación de regresión para el modelo no jerárquico está en unidades codificadas. La ecuación de regresión codificada no proporciona ninguna información acerca de los efectos en las mismas unidades que los datos.

Análisis de regresión: Aislamiento vs. PresIny, TempIny, TempEnfr, Material

Coeficientes codificados EE del Término Coef coef. Valor T Valor p FIV Constante 17.463 0.143 121.77 0.000 PresIny 1.835 0.143 12.80 0.006 2.00 TempIny 1.272 0.101 12.55 0.006 1.00 TempEnfr 2.173 0.143 15.15 0.004 2.00 Material Fórmula2 5.192 0.203 25.60 0.002 1.00 PresIny*TempIny -0.036 0.143 -0.25 0.824 2.00 PresIny*TempEnfr 0.238 0.143 1.66 0.239 2.00 TempIny*TempEnfr 1.154 0.143 8.04 0.015 2.00 PresIny*Material Fórmula2 -0.198 0.203 -0.98 0.431 2.00 TempEnfr*Material Fórmula2 -0.898 0.203 -4.43 0.047 2.00 PresIny*TempIny*TempEnfr 0.100 0.101 0.99 0.427 1.00 PresIny*TempIny*Material Fórmula2 0.181 0.203 0.89 0.466 2.00 PresIny*TempEnfr*Material Fórmula2 -0.385 0.203 -1.90 0.198 2.00 TempIny*TempEnfr*Material Fórmula2 -0.229 0.203 -1.13 0.375 2.00

Ecuación de regresión en unidades codificadas Material Fórmula1 Aislamiento = 17.463 + 1.835 PresIny + 1.272 TempIny + 2.173 TempEnfr - 0.036 PresIny*TempIny + 0.238 PresIny*TempEnfr + 1.154 TempIny*TempEnfr + 0.100 PresIny*TempIny*TempEnfr Fórmula2 Aislamiento = 22.655 + 1.637 PresIny + 1.272 TempIny + 1.275 TempEnfr + 0.145 PresIny*TempIny - 0.147 PresIny*TempEnfr + 0.924 TempIny*TempEnfr + 0.100 PresIny*TempIny*TempEnfr

En lugar de utilizar solamente el criterio del valor p, el ingeniero decide eliminar primero los términos más complejos que tienen valores p altos. En este modelo, en vez de eliminar el término que tiene el valor p más alto, el ingeniero elimina la interacción de 3 factores que tiene el valor p más alto. El valor p más alto de una interacción de 3 factores es 0.466 para la interacción entre presión de inyección, temperatura de inyección y material.