Consideraciones acerca de los datos para Ajustar modelo lineal general

Para asegurar que los resultados sean válidos, considere las siguientes pautas al recopilar datos, realizar el análisis e interpretar los resultados.

Los datos deben incluir por lo menos un factor categórico

Los factores categóricos pueden ser factores cruzados y anidados y factores fijos y aleatorios.

Para un modelo con factores aleatorios, normalmente se utiliza Ajustar modelo de efectos mixtos para poder usar el método de estimación de máxima verosimilitud restringida (REML).
Si usted tiene un factor categórico y ningún predictor continuo, también puede utilizar ANOVA de un solo factor.
Si usted tiene variables predictoras principalmente continuas, puede obtener resultados de modelo similares con Ajustar modelo de regresión.
Si usted tiene uno o dos factores categóricos y desea comparar las medias de los niveles con la media general de datos que siguen las distribuciones normal, binomial o de Poisson, utilice Análisis de medias.
Si usted desea probar la igualdad de las desviaciones estándar entre los grupos, utilice Prueba de igualdad de varianzas.

Para obtener más información sobre los factores, vaya a Factores y niveles de factor, ¿Qué son factores, factores cruzados y factores anidados? y ¿Cuál es la diferencia entre factores fijos y aleatorios?.

La variable de respuesta debe ser continua

Si la variable de respuesta es categórica, es menos probable que el modelo cumpla con los supuestos del análisis, que describa con exactitud los datos o que haga predicciones útiles.

Si usted tiene múltiples variables de respuesta que están correlacionadas y un conjunto común de factores, utilice MANOVA general, que tiene más potencia y puede detectar patrones de respuestas multivariadas.
Si la variable de respuesta tiene dos categorías, como pasa y no pasa, utilice Ajustar modelo logístico binario.
Si la variable de respuesta contiene tres o más categorías que tienen un orden natural, como por ejemplo completamente en desacuerdo, en desacuerdo, neutral, de acuerdo, completamente de acuerdo, utilice Regresión logística ordinal.
Si la variable de respuesta contiene tres o más categorías que no tienen un orden natural, como por ejemplo raya, hendidura y rotura, utilice Regresión logística nominal.
Si la variable de respuesta cuenta ocurrencias, tales como el número de defectos, utilice Ajustar modelo de Poisson.

Cada observación debe ser independiente de todas las demás observaciones

Si las observaciones son dependientes, los resultados podrían no ser válidos. Considere los siguientes puntos para determinar si las observaciones son independientes:

Si una observación no proporciona información sobre el valor de otra observación, las observaciones son independientes.
Si una observación proporciona información sobre el valor de otra observación, las observaciones son dependientes.

Los datos de la muestra se deben seleccionar aleatoriamente

Las muestras aleatorias se utilizan para hacer generalizaciones, o inferencias, sobre una población. Si los datos no se recopilaron aleatoriamente, los resultados podrían no representar a la población.

Recolecte los datos utilizando las mejores prácticas

Para asegurar que los resultados sean válidos, considere las siguientes pautas:

Asegúrese de que los datos representen a la población de interés.
Recolecte suficiente datos para proporcionar la precisión necesaria.
Mida las variables con tanta exactitud y precisión como sea posible.
Registre los datos en el orden de recolección.

La correlación entre los predictores, también conocida como multicolinealidad, no debe ser severa

Si la multicolinealidad es severa, es probable que usted no pueda determinar cuáles predictores incluir en el modelo. Para determinar la severidad de la multicolinealidad, utilice los factores de inflación de la varianza (FIV) indicados en la tabla Coeficientes de la salida.

El modelo debe proveer un ajuste adecuado a los datos

Si el modelo no se ajusta a los datos, los resultados pueden ser engañosos. En la salida, utilice las gráficas de residuos, los estadísticos de diagnóstico para observaciones poco comunes y los estadísticos de resumen del modelo para determinar qué tan bien se ajusta el modelo a los datos.