Gráfica de R-cuadrado vs. número de nodos terminales para Regresión CART®

Minitab muestra una gráfica de un valor de R2 respecto al número de nodos terminales del árbol para que pueda seleccionar un árbol para evaluarlo más. Si utiliza un conjunto de datos de prueba o una validación cruzada de K pliegues para validar el rendimiento del árbol, entonces el valor de R2 es para los datos de validación.

La gráfica de R-cuadrado vs. número de nodos terminales muestra el valor de R2 para cada árbol. De forma predeterminada, el árbol de regresión inicial es el árbol más pequeño con un valor de R2 dentro de 1 error estándar del valor máximo de R2. Cuando el análisis utiliza la validación cruzada o un conjunto de datos de prueba, el valor de R2 procede del ejemplo de validación. Los valores de la muestra de validación normalmente se nivelan y, finalmente, comienzan a disminuir a medida que el árbol crece.

Haga clic en Seleccionar árbol alternativo para abrir una gráfica interactiva que incluya una tabla de estadísticos de resumen del modelo. Utilice la gráfica para investigar árboles alternativos con un rendimiento similar.

Normalmente, se selecciona un árbol alternativo por una de las dos razones siguientes:
  • El árbol que Minitab selecciona es parte de un patrón donde el criterio mejora. Uno o más árboles que tienen algunos nodos más forman parte del mismo patrón. Normalmente, desea realizar predicciones desde un árbol con la mayor precisión de predicción posible.
  • El árbol que Minitab selecciona es parte de un patrón donde el criterio es relativamente plano. Uno o más árboles con estadísticos de resumen del modelo similares tienen muchos menos nodos que el árbol óptimo. Normalmente, un árbol con menos nodos terminales proporciona una imagen más clara de cómo cada variable predictora afecta a los valores de respuesta. Un árbol más pequeño también facilita la identificación de algunos grupos objetivo para estudios posteriores. Si la diferencia en la exactitud de la predicción de un árbol más pequeño es insignificante, también puede utilizar el árbol más pequeño para evaluar las relaciones entre la respuesta y las variables predictoras

Interpretación

Resultado clave: Gráfica de R-cuadrado vs. número de nodos terminales para un árbol con 21 nodos terminales

El árbol de regresión con 21 nodos terminales tiene un valor de R2 de aproximadamente 0.78. Este árbol tiene la etiqueta "Óptimo" porque el criterio para la creación del árbol era el árbol más pequeño con un valor de R2 dentro de 1 desviación estándar del valor máximo de R2. Debido a que esta gráfica muestra que los valores de R2 son relativamente estables entre árboles con unos 20 nodos y árboles con unos 70 nodos, los investigadores desean ver el rendimiento de algunos de los árboles aún más pequeños que son similares al árbol en los resultados. Compare la siguiente gráfica para ver los resultados para un árbol con 17 nodos.

Resultado clave: Gráfica de R-cuadrado vs. número de nodos terminales para un árbol con 17 nodos terminales

El árbol de regresión con 17 nodos terminales tiene un valor de R2 de 0.7661. El árbol de los resultados iniciales mantiene la etiqueta "Óptimo" cuando se utiliza Seleccionar árbol alternativo para crear resultados para un árbol diferente.