Tabla resumen de modelos para Ajustar modelo y Descubrir predictores clave con Regresión TreeNet®

Nota

Este comando está disponible con el Módulo de análisis predictivo. Haga clic aquí para obtener más información sobre cómo activar el módulo.

Encuentre definiciones y orientación para interpretar la tabla de resumen del modelo.
Nota

Minitab muestra los resultados tanto de los datos de entrenamiento como de los resultados de validación. Los resultados de validación indican si el modelo puede predecir adecuadamente los valores de respuesta para nuevas observaciones o resumir correctamente las relaciones entre la respuesta y las variables predictoras. Utilice los resultados de entrenamiento para evaluar el sobreajuste del modelo.

Total de predictores

El número total de predictores disponibles para el modelo TreeNet®. El total es la suma de los predictores continuos y categóricos que usted especifique.

Predictores importantes

El número de predictores importantes en el modelo TreeNet®. Los predictores importantes tienen puntuaciones de importancia mayores que 0.0. Puede utilizar la gráfica Importancia relativa de las variables para mostrar el orden de importancia relativa de las variables. Por ejemplo, supongamos que 10 de 20 predictores son importantes en el modelo, la gráfica Importancia relativa de las variables muestra las variables en orden de importancia.

Número de árboles cultivados

Por opción predeterminada, Minitab cultiva 300 árboles CART® pequeños para producir el modelo TreeNet®. Aunque este valor funciona bien para la exploración de los datos, considere cultivar más árboles para producir un modelo final. Para cambiar el número de árboles cultivados, vaya al cuadro de diálogo secundario Opciones.

Número óptimo de árboles

El número óptimo de árboles corresponde al valor más alto de R2 o al valor más bajo de MAD.

Cuando el número óptimo de árboles esté cerca del número máximo de árboles que el modelo cultiva, considere realizar un análisis con más árboles. Por lo tanto, si cultiva 300 árboles y el número óptimo determinado es 298, vuelva a construir el modelo con más árboles. Si el número óptimo sigue estando cerca del número máximo, continúe aumentando el número de árboles.

R-cuadrado

R2 es el porcentaje de variación en la respuesta explicado por el modelo. Los valores atípicos tienen un mayor efecto en el R2 que en la MAD y el MAPE.

Cuando se utiliza un método de validación, la tabla incluye una estadística R2 para el conjunto de datos de entrenamiento y una estadística R2 para el método de validación. Cuando el método de validación es la validación cruzada k-fold, la validación utiliza cada fold cuando la construcción del árbol excluye ese fold. La estadística R2 de los resultados de validación suele ser una mejor medida de cómo funciona el modelo para datos nuevos.

Interpretación

Utilice R2 para determinar qué tan bien se ajusta el modelo a los datos. Cuanto mayor sea el valor de R2, mejor se ajusta el modelo a los datos. R2 siempre se encuentra entre 0% y 100%.

Puede ilustrar gráficamente el significado de diferentes valores de R2. La primera gráfica ilustra un modelo de regresión simple que explica el 85.5% de la variación en la respuesta. La segunda gráfica ilustra un modelo que explica el 22.6% de la variación en la respuesta. Cuanta más variación explique el modelo, más cerca estarán los puntos de datos de los valores ajustados. En teoría, si un modelo puede explicar el 100% de la variación, los valores ajustados siempre serían iguales a los valores observados y todos los puntos de datos se ubicarían en la línea y = x.

Un R2 de validación que es sustancialmente menor que el R2de entrenamiento indica que el modelo podría no predecir los valores de respuesta para nuevos casos tan adecuadamente como se ajusta al conjunto de datos actual.

Raíz de los cuadrados medios del error (RMSE)

La raíz de los cuadrados medios del error (RMSE) mide la exactitud del modelo. Los valores atípicos tienen un mayor efecto en el RMSE que en la MAD y el MAPE.

Cuando se utiliza un método de validación, la tabla incluye una estadística RMSE para el conjunto de datos de entrenamiento y una estadística RMSE para los resultados de validación. Cuando el método de validación es la validación cruzada k-fold, la validación utiliza cada fold cuando la construcción del árbol excluye ese fold. La estadística RMSE de validación suele ser una mejor medida de cómo funciona el modelo para datos nuevos.

Interpretación

Se utiliza para comparar los ajustes de diferentes modelos. Valores más pequeños indican un mejor ajuste. Una RMSE de validación que sea sustancialmente mayor que la RMSE de entrenamiento indica que el modelo podría no predecir los valores de respuesta para nuevos casos tan bien como si el modelo se ajuste al conjunto de datos actual.

Cuadrado medio del error (MSE)

El cuadrado medio del error (MSE) mide la exactitud del modelo. Los valores atípicos tienen un mayor efecto en el MSE que en la MAD y el MAPE.

Cuando se utiliza un método de validación, la tabla incluye una estadística MSE para el conjunto de datos de entrenamiento y una estadística MSE para los resultados de validación. Cuando el método de validación es la validación cruzada k-fold, la validación utiliza cada fold cuando la construcción del modelo excluye ese fold. La estadística MSE de validación suele ser una mejor medida de cómo funciona el modelo para datos nuevos.

Interpretación

Se utiliza para comparar los ajustes de diferentes modelos. Valores más pequeños indican un mejor ajuste. Una MSE de validación que sea sustancialmente mayor que la MSE de entrenamiento indica que el modelo podría no predecir los valores de respuesta para nuevos casos tan bien como si el modelo se ajuste al conjunto de datos actual.

Desviación absoluta media (MAD)

La desviación absoluta media (MAD) expresa la exactitud en las mismas unidades que los datos, lo que ayuda a conceptualizar la cantidad de error. Los valores atípicos tienen menos efecto en el MAD que en el R2, la RMSE y el MSE.

Cuando se utiliza un método de validación, la tabla incluye una estadística MAD para el conjunto de datos de entrenamiento y una estadística MAD para los resultados de validación. Cuando el método de validación es la validación cruzada k-fold, la validación utiliza cada fold cuando la construcción del modelo excluye ese fold. La estadística MAD de validación suele ser una mejor medida de cómo funciona el modelo para datos nuevos.

Interpretación

Se utiliza para comparar los ajustes de diferentes modelos. Valores más pequeños indican un mejor ajuste. Una MAD de validación que sea sustancialmente mayor que la MAD de entrenamiento indica que el modelo podría no predecir los valores de respuesta para nuevos casos tan bien como si el modelo se ajuste al conjunto de datos actual.

Error porcentual absoluto medio (MAPE)

El error porcentual absoluto medio (MAPE) expresa la exactitud como un porcentaje del error. Dado que el MAPE es un porcentaje, puede ser más fácil de entender que los otros estadísticos de medición de exactitud. Por ejemplo, si el MAPE, en promedio, es 0.05, la relación promedio entre el error ajustado y el valor real en todos los casos es de 5%. Los valores atípicos tienen menos efecto en el MAPE que en el R2, la RMSE y el MSE.

Sin embargo, a veces puede ver un valor MAPE muy grande aunque el modelo parezca ajustarse bien a los datos. Examine la gráfica de valores de respuesta ajustados vs. reales para ver si hay valores de datos cercanos a 0. Dado que el MAPE divide el error absoluto entre los datos reales, los valores cercanos a 0 pueden inflar en gran medida el MAPE.

Cuando se utiliza un método de validación, la tabla incluye una estadística MAPE para el conjunto de datos de entrenamiento y una estadística MAPE para los resultados de validación. Cuando el método de validación es la validación cruzada k-fold, la validación utiliza cada fold cuando la construcción del modelo excluye ese fold. La estadística MAPE de validación suele ser una mejor medida de cómo funciona el modelo para datos nuevos.

Interpretación

Se utiliza para comparar los ajustes de diferentes modelos. Valores más pequeños indican un mejor ajuste. Una MAPE de validación que sea sustancialmente mayor que la MAPE de entrenamiento indica que el modelo podría no predecir los valores de respuesta para nuevos casos tan bien como si el modelo se ajuste al conjunto de datos actual.