Gráfica de dispersión de MSE o MAD vs. nodo terminal para Regresión CART®

Utilice la gráfica de dispersión de MSE vs. nodo terminal o la gráfica de dispersión de MAD vs. nodo terminal para ver los nodos con los ajustes menos exactos y más exactos. Cuando el análisis utiliza un conjunto de datos de prueba, puede comparar la gráfica de los datos de entrenamiento con la gráfica de los datos de prueba.

Cuando el método de división de nodos es el cuadrado mínimo del error, el eje Y muestra el cuadrado medio del error (MSE). Cuando el método de división de nodos es la desviación absoluta mínima, el eje Y es la desviación absoluta media (MAD). El eje X muestra los números de identificación de los nodos terminales. De forma predeterminada, los nodos están en orden desde el menor error hasta el mayor error. Al ejecutar el análisis, puede encontrar una opción para ordenar los nodos por número de identificación presionando el botón Gráficas.

Interpretación

Lo ideal es que si un árbol ajusta bien los datos, todos los nodos tengan una pequeña cantidad de error. Un patrón común es que el error en algunos nodos sea mayor que en otros. Puede tener la mayor confianza en los ajustes de los nodos con el menor error. Los nodos con más error pueden representar las mejores oportunidades para mejorar el árbol aprendiendo a reducir la variación o encontrando variables predictoras adicionales que expliquen la variación en el nodo.

Cuando el análisis utiliza un conjunto de datos de prueba, la gráfica incluye puntos independientes para los datos de entrenamiento y de prueba. El rendimiento del árbol en los datos de prueba suele ser una mejor representación del rendimiento del árbol para nuevos datos. Debe investigar diferencias grandes en la exactitud de los ajustes entre los datos de prueba y de entrenamiento.

En este gráfico, la exactitud del nodo terminal 8 es peor que para los otros nodos terminales. Puede tener relativamente más confianza en la exactitud de los ajustes para los nodos con los valores más bajos de MSE. Los casos en el nodo terminal 8 pueden tener la mayor oportunidad de mejorar el árbol si existe una manera de reducir o explicar la variación.