Descripción general de Descubrir el mejor modelo (Respuesta binaria)

Nota

Este comando está disponible con el módulo Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Por lo general, la forma más sencilla de determinar qué tipo de modelo realiza las mejores predicciones para un conjunto de datos específico es generar todos los modelos y comparar el rendimiento. Utilice Descubrir el mejor modelo (Respuesta binaria) para comparar el rendimiento de 4 tipos de modelos comunes: Ajustar modelo logístico binario, Ajustar modelo para Clasificación TreeNet®, Clasificación Random Forests® y Clasificación CART®. Los 4 análisis modelan una respuesta binaria con muchas variables predictoras categóricas y continuas. Por ejemplo, un investigador de mercado requiere identificar clientes con tasas de respuesta a iniciativas específicas con valores más altos y pronosticar esas tasas de respuesta. El investigador compara el rendimiento de los diferentes tipos de modelos para decidir cómo obtener las predicciones más precisas.

Entre los 4 tipos de modelos hay 2 tipos más generales: el modelo de regresión logística binaria y el modelo basado en árboles. El comando Ajustar modelo logístico binario ejecuta modelos de regresión logística binaria. Los otros 3 comandos ejecutan modelos basados en árboles. Los métodos de ajuste del modelo para los 2 tipos generales son muy diferentes, pero se complementan entre sí. Un modelo de regresión logística binaria asume que la probabilidad de evento de una respuesta binaria es una función paramétrica de los predictores. El modelo utiliza el criterio de máxima verosimilitud para estimar los parámetros de un conjunto de datos. Si la función paramétrica representa de forma adecuada la relación entre la probabilidad de evento de una respuesta y sus predictores, entonces el modelo puede estimar bien la probabilidad de evento. Por lo tanto, la expresión tiene una gran oportunidad de predecir correctamente los niveles de respuesta para nuevas observaciones. Un modelo de regresión logística binaria simplifica la identificación de la configuración óptima de los predictores. El ajuste efectivo también significa que los parámetros ajustados y los errores estándar son útiles para la inferencia estadística, como la estimación de intervalos de confianza para las probabilidades de eventos pronosticados.

A veces, el modelo de regresión logística binaria no se ajusta bien a un conjunto de datos o las características de los datos impiden la construcción de un modelo de regresión logística binaria. Los siguientes son casos comunes donde un modelo de regresión logística binaria tiene un ajuste deficiente:
  1. La relación entre la probabilidad de evento de una respuesta binaria y los predictores no sigue una función paramétrica.
  2. Para ciertos conjuntos de datos, el algoritmo de estimación de máxima verosimilitud no converge con estimaciones de parámetros únicos.
  3. Los datos no tienen suficientes observaciones para estimar los parámetros en la expresión de probabilidad de evento cuando el número de predictores es grande.
  4. Los predictores son variables aleatorias.
  5. Los predictores contienen muchos valores faltantes.

En tales casos, los modelos basados en árboles son modelos que pueden considerarse como buenas alternativas.

Entre los modelos basados en árboles, CART utiliza un árbol de decisión único. Un árbol de decisión único comienza a partir de todo el conjunto de datos como el primer nodo padre. Luego, el árbol divide los datos en 2 nodos secundarios más homogéneos utilizando el criterio de división de nodos. Este paso se repite de forma iterativa hasta que todos los nodos sin dividir cumplen el criterio para ser un nodo terminal. Enseguida, se realiza la validación cruzada o la validación con un conjunto de prueba por separado para recortar el árbol y obtener un tamaño óptimo, que es el modelo CART. Los árboles de decisión individuales son fáciles de entender y pueden adaptarse a conjuntos de datos con una amplia variedad de características.

Los árboles de decisión individuales pueden ser menos robustos y menos potentes que los otros 2 métodos basados en árboles. Por ejemplo, un pequeño cambio en los valores predictivos en un conjunto de datos puede originar un modelo CART muy diferente. Los métodos TreeNet® y Random Forests ® utilizan conjuntos de árboles individuales para crear modelos que son más robustos y más precisos que los modelos de árboles de decisión individuales.

Para obtener más información sobre cada tipo de modelo, utilice los siguientes vínculos: