Tipos de modelos de análisis predictivo en Minitab Statistical Software

Los modelos de análisis predictivo proporcionan información para una amplia gama de aplicaciones, incluido el control de calidad de fabricación, el descubrimiento de medicamentos, la detección de fraudes, la calificación crediticia y la predicción de abandono. Utilice los resultados para identificar variables importantes, para identificar grupos en los datos con características deseables y para pronosticar valores de respuesta para nuevas observaciones. Por ejemplo, un investigador de mercado puede usar un modelo de análisis predictivo para identificar a los clientes que tienen tasas de respuesta más altas a iniciativas específicas y para predecir esas tasas de respuesta.

En muchas aplicaciones, un paso importante en la construcción de modelos es considerar varios tipos de modelos. Los analistas encuentran el mejor tipo para una aplicación en un momento específico, encuentran la versión óptima de ese modelo y usan el modelo para generar las predicciones más precisas posibles. Para ayudar en la consideración de varios modelos, Minitab Statistical Software proporciona la capacidad de comparar diferentes tipos de modelos en un solo análisis si usted tiene una variable de respuesta continua o una variable de respuesta binaria.

Si tiene una variable de respuesta categórica con más de 2 categorías, cree modelos uno por uno.

Modelos de regresión múltiple

Un modelo de regresión múltiple asume que la respuesta promedio es una función paramétrica de los predictores. El modelo utiliza el criterio de mínimos cuadrados para estimar los parámetros de un conjunto de datos. Si un modelo de regresión paramétrica se ajusta a la relación entre la respuesta y sus predictores, entonces el modelo predice los valores de respuesta con nuevas observaciones de forma precisa. Por ejemplo, la Ley de Hooke en física dice que la fuerza para extender un resorte tiene una relación lineal con la distancia de extensión, por lo que un modelo de regresión se ajusta muy bien a la relación.

Un modelo de regresión múltiple simplifica la identificación de la configuración óptima para los predictores. El ajuste efectivo también significa que los parámetros ajustados y los errores estándar son útiles para la inferencia estadística, como la estimación de intervalos de confianza para los valores de respuesta previstos.

Los modelos de regresión múltiple son flexibles y, a menudo, se ajustan a la verdadera forma de relaciones en los datos. Aun así, a veces un modelo de regresión múltiple no se ajusta bien a un conjunto de datos o las características de los datos impiden la construcción de un modelo de regresión múltiple. Los siguientes ejemplos son casos comunes de cuando un modelo de regresión múltiple tiene un ajuste deficiente:
  • Las relaciones entre la respuesta y el predictor no siguen un modelo en el que pueda ajustarse a un modelo de regresión múltiple.
  • Los datos no tienen suficientes observaciones para estimar suficientes parámetros para encontrar un modelo de regresión múltiple que se ajuste.
  • Los predictores son variables aleatorias.
  • Los predictores contienen muchos valores faltantes.

En tales casos, los modelos basados en árboles son modelos que pueden considerarse como buenas alternativas.

En el módulo de análisis predictivo, Minitab Statistical Software ajusta múltiples modelos de regresión a variables de respuesta continuas y binarias con los comandos Descubrir el mejor modelo. Para obtener una lista de otros modelos de regresión múltiple en Minitab Statistical Software, vaya a ¿Qué análisis de regresión y correlación se incluyen en Minitab?.

Modelos basados en árboles

CART®, TreeNet®y Random Forests® son 3 métodos basados en árboles. Entre los modelos basados en árboles, CART® es más fácil de entender porque CART® utiliza un solo árbol de decisión. Un árbol de decisión único comienza a partir de todo el conjunto de datos como el primer nodo padre. Luego, el árbol divide los datos en 2 nodos secundarios más homogéneos utilizando el criterio de división de nodos. Este paso se repite de forma iterativa hasta que todos los nodos sin dividir cumplen un criterio para ser un nodo terminal. Enseguida, se realiza la validación cruzada o la validación con un conjunto de prueba por separado para recortar el árbol y obtener un tamaño óptimo, que es el modelo CART®. Los árboles de decisión individuales son fáciles de entender y pueden adaptarse a conjuntos de datos con una amplia variedad de características.

Los árboles de decisión individuales pueden ser menos robustos y menos potentes que los otros 2 métodos basados en árboles. Por ejemplo, un pequeño cambio en los valores predictivos en un conjunto de datos puede originar un modelo CART® muy diferente. Los métodos TreeNet® y Random Forests ® utilizan conjuntos de árboles individuales para crear modelos que son más robustos y más precisos que los modelos de árboles de decisión individuales.

Minitab Statistical Software ajusta los modelos basados en árboles a variables de respuesta continua, variables de respuesta binarias y variables de respuesta nominal. Para ver un ejemplo de cada modelo en Minitab Statistical Software, seleccione un tipo de modelo:

MARS® modelos

MARS® primero construye un amplio conjunto de funciones básicas que se ajustan a los datos lo mejor posible. Después de formar el modelo extenso, el análisis reduce el riesgo de sobreajuste mediante la búsqueda de un subconjunto óptimo de las funciones base. El modelo reducido sigue siendo adaptable a varias dependencias no lineales en los datos. El modelo resultante es un modelo de regresión lineal múltiple en el espacio de estas funciones base. La característica de buscar diferentes ajustes para diferentes regiones de los datos de manera gradual se conecta MARS® a modelos basados en árboles. Debido a las características basadas en árboles, MARS® proporciona algunas de las mismas ventajas:
  • Detección automática del formulario modelo
  • Gestión automática de los valores que faltan
  • Selección automática de los predictores más relevantes
El uso de una ecuación se conecta MARS® a modelos de regresión múltiple. Debido a las características de regresión múltiple, MARS® también proporciona algunas de las ventajas de este tipo de modelo:
  • Una ecuación de regresión hace que los efectos de las variables sean fáciles de entender.
  • La función continua significa que pequeños cambios en los predictores resultan en pequeños cambios en las predicciones.
  • Incluso para modelos pequeños, diferentes valores de los predictores producen diferentes predicciones.
Los modelos flexibles de MARS® proporcionan predicciones precisas y pueden proporcionar información sobre la forma del modelo que mejora el ajuste de otros tipos de modelos. Minitab Statistical Software ajusta los modelos de regresión MARS® a las variables de respuesta continua. Para ver un ejemplo de MARS® Minitab Statistical Software, vaya a Ejemplo de MARS®.