Consideraciones acerca de los datos para Regresión de los mejores subconjuntos

Para asegurar que los resultados sean válidos, considere las siguientes pautas al recopilar datos, realizar el análisis e interpretar los resultados.

Los datos deben incluir más de un predictor continuo

Una variable continua puede medirse y ordenarse y tiene un número infinito de valores entre dos valores cualesquiera. Por ejemplo, los diámetros de una muestra de neumáticos es una variable continua.

Las variables categóricas contienen un número finito y contable de categorías o grupos distintos. Los datos categóricos pueden no tener un orden lógico. Por ejemplo, los predictores categóricos incluyen sexo, tipo de material y método de pago.

Si usted tiene una variable discreta, puede decidir si la tratará como un predictor continuo o categórico. Una variable discreta puede medirse y ordenarse, pero tiene un número contable de valores. Por ejemplo, el número de personas que viven en un hogar es una variable discreta. La decisión de tratar una variable discreta como continua o categórica depende del número de niveles, así como del propósito del análisis. Para obtener más información, vaya a ¿Qué son variables categóricas, discretas y continuas?.

  • Si usted tiene predictores categóricos, utilice Ajustar modelo de regresión con un procedimiento escalonado para seleccionar un modelo de regresión automáticamente al agregar o eliminar predictores con base en su significancia estadística.
  • Si usted tiene predictores categóricos que están anidados o son aleatorios, utilice Ajustar modelo lineal general si todos los factores son fijos o Ajustar modelo de efectos mixtos si tiene factores aleatorios.
La variable de respuesta debe ser continua
Si la variable de respuesta es categórica, es menos probable que el modelo cumpla con los supuestos del análisis, que describa con exactitud los datos o que haga predicciones útiles.
  • Si la variable de respuesta tiene dos categorías, como pasa y no pasa, utilice Ajustar modelo logístico binario.
  • Si la variable de respuesta contiene tres o más categorías que tienen un orden natural, como por ejemplo completamente en desacuerdo, en desacuerdo, neutral, de acuerdo, completamente de acuerdo, utilice Regresión logística ordinal.
  • Si la variable de respuesta contiene tres o más categorías que no tienen un orden natural, como por ejemplo raya, hendidura y rotura, utilice Regresión logística nominal.
  • Si la variable de respuesta cuenta ocurrencias, tales como el número de defectos, utilice Ajustar modelo de Poisson.
Recolecte los datos utilizando las mejores prácticas
Para asegurar que los resultados sean válidos, considere las siguientes pautas:
  • Asegúrese de que los datos representen a la población de interés.
  • Recolecte suficiente datos para proporcionar la precisión necesaria.
  • Mida las variables con tanta exactitud y precisión como sea posible.
  • Registre los datos en el orden de recolección.
El modelo debe proveer un ajuste adecuado a los datos
Si el modelo no se ajusta a los datos, los resultados pueden ser engañosos. Los mejores subconjuntos identifican los modelos candidatos y proporcionan resultados para determinar qué tan bien se ajustan los modelos. Los mejores subconjuntos no proporcionan gráficas de residuos ni salida para evaluar términos individuales del modelo. Si usted desea evaluar esta salida, utilice Ajustar modelo de regresión para explorar más los modelos candidatos.