Gráfica de caja de respuestas por nodo terminal para Regresión CART®

Las gráficas de caja proporcionan un resumen gráfico de la distribución de la variable de respuesta en cada nodo de terminal. Utilice las gráficas de caja para comparar la forma, la tendencia central y la variabilidad de los nodos. Las gráficas de caja son mejores representaciones visuales de los valores de respuesta cuando el número de casos en un nodo de terminal es mayor que 20.

Interpretación

De forma predeterminada, los nodos están en orden desde el menor error hasta el mayor error. Al ejecutar el análisis, puede encontrar una opción para ordenar los nodos por número de identificación presionando el botón Gráficas.

Cuando el análisis utiliza un conjunto de datos de prueba, la gráfica incluye gráficas de caja independientes para los datos de entrenamiento y de prueba. El rendimiento del árbol en los datos de prueba suele ser una mejor representación del rendimiento del árbol para nuevos datos. Debe investigar diferencias grandes entre los datos de prueba y de entrenamiento.

En la siguiente gráfica, 3 de las medianas más altas son para los nodos terminales 17, 16 y 14, que también tienen los errores más pequeños. El nodo terminal 1 tiene la mediana más pequeña. Los nodos terminales 1 y 3 tienen un valor atípico cada uno, mientras que los otros nodos terminales con valores atípicos tienen más de 1. El error para el nodo terminal 8 es el mayor.