Los modelos de análisis predictivo proporcionan información para una amplia gama de aplicaciones, incluido el control de calidad de fabricación, el descubrimiento de medicamentos, la detección de fraudes, la calificación crediticia y la predicción de abandono. Utilice los resultados para identificar variables importantes, para identificar grupos en los datos con características deseables y para pronosticar valores de respuesta para nuevas observaciones. Por ejemplo, un investigador de mercado puede usar un modelo de análisis predictivo para identificar a los clientes que tienen tasas de respuesta más altas a iniciativas específicas y para predecir esas tasas de respuesta.
Si tiene una variable de respuesta categórica con más de 2 categorías, cree modelos uno por uno.
Un modelo de regresión lineal supone que la respuesta media es una función paramétrica de los predictores. El modelo utiliza el criterio de mínimos cuadrados para estimar los parámetros de un conjunto de datos. Si un modelo de regresión paramétrica se ajusta a la relación entre la respuesta y sus predictores, entonces el modelo predice los valores de respuesta con nuevas observaciones de forma precisa. Por ejemplo, la Ley de Hooke en física dice que la fuerza para extender un resorte tiene una relación lineal con la distancia de extensión, por lo que un modelo de regresión se ajusta muy bien a la relación.
Un modelo de regresión lineal simplifica la identificación de la configuración óptima para los predictores. El ajuste efectivo también significa que los parámetros ajustados y los errores estándar son útiles para la inferencia estadística, como la estimación de intervalos de confianza para los valores de respuesta previstos.
En tales casos, los modelos basados en árboles son modelos que pueden considerarse como buenas alternativas.
En el módulo de análisis predictivo, Minitab Statistical Software ajusta lineal modelos de regresión a variables de respuesta continuas y binarias con los comandos Descubrir el mejor modelo. Para obtener una lista de otros modelos de regresión lineal en Minitab Statistical Software, vaya a ¿Qué análisis de regresión y correlación se incluyen en Minitab?.
CART®, TreeNet®y Random Forests® son 3 métodos basados en árboles. Entre los modelos basados en árboles, CART® es más fácil de entender porque CART® utiliza un solo árbol de decisión. Un árbol de decisión único comienza a partir de todo el conjunto de datos como el primer nodo padre. Luego, el árbol divide los datos en 2 nodos secundarios más homogéneos utilizando el criterio de división de nodos. Este paso se repite de forma iterativa hasta que todos los nodos sin dividir cumplen un criterio para ser un nodo terminal. Enseguida, se realiza la validación cruzada o la validación con un conjunto de prueba por separado para recortar el árbol y obtener un tamaño óptimo, que es el modelo CART® . Los árboles de decisión individuales son fáciles de entender y pueden adaptarse a conjuntos de datos con una amplia variedad de características.
Los árboles de decisión individuales pueden ser menos robustos y menos potentes que los otros 2 métodos basados en árboles. Por ejemplo, un pequeño cambio en los valores predictivos en un conjunto de datos puede originar un modelo CART® muy diferente. Los métodos TreeNet® y Random Forests ® utilizan conjuntos de árboles individuales para crear modelos que son más robustos y más precisos que los modelos de árboles de decisión individuales.