La gráfica de R-cuadrado vs.número de nodos terminales muestra el valor de R2 para cada árbol. Por opción predeterminada, el árbol de regresión inicial es el árbol más pequeño con un valor de R2 dentro de 1 error estándar del valor para el árbol que maximiza el valor de R2. Cuando el análisis utiliza la validación cruzada o un conjunto de datos de prueba, el valor de R2 procede del ejemplo de validación. Los valores de la muestra de validación normalmente se nivelan y, finalmente, comienzan a disminuir a medida que el árbol crece.
Haga clic en Seleccionar árbol alternativo para abrir una gráfica interactiva que incluya una tabla de estadísticas de resumen del modelo. Utilice la gráfica para investigar árboles alternativos con un rendimiento similar.
El árbol de regresión con 21 nodos terminales tiene un valor de R2 de aproximadamente 0.78. Este árbol tiene la etiqueta "Óptimo" porque el criterio para la creación del árbol era el árbol más pequeño con un valor de R2 dentro de 1 desviación estándar del valor máximo de R2. Debido a que esta gráfica muestra que los valores de R2 son relativamente estables entre árboles con unos 20 nodos y árboles con unos 70 nodos, los investigadores quieren ver el rendimiento de algunos de los árboles aún más pequeños que son similares al árbol en los resultados. Compare la siguiente gráfica para ver los resultados de un árbol con 17 nodos.
El árbol de regresión con 17 nodos terminales tiene un valor de R2 de 0.7661. El árbol de los resultados iniciales mantiene la etiqueta "Óptimo" cuando se utiliza Seleccionar árbol alternativo para crear resultados para un árbol diferente.
Después de seleccionar un árbol, investigue los nodos terminales distintivos en el diagrama de árbol. Por ejemplo, es posible que le interesen nodos con medias grandes o con pequeñas desviaciones estándar. En la vista detallada, puede ver la media, la desviación estándar y los conteos totales de cada nodo.
Haga clic con el botón derecho en el diagrama de árbol para realizar las siguientes interacciones:
Los nodos continúan dividiéndose hasta que los nodos terminales no se pueden dividir en agrupaciones adicionales. Explore otros nodos para ver qué variables son más interesantes.
El diagrama de árbol muestra los 4453 casos del conjunto de datos completo. Puede alternar las vistas del árbol entre la vista detallada y la vista de división de nodos.
Entonces, Nodo 2 se divide entre Frecuencia del abuso de sustancias y Nodo 8 se divide entre el Consumo de alcohol. Nodo terminal 17 tiene los casos para Terapia de medicamentos planificada = 2, Consumo de alcohol = 1 y Fuente de referencia = 3, 5, 6, 100, 300, 400, 600, 700 u 800. Los investigadores señalan que Nodo terminal 17 tiene la media más alta, la desviación estándar más pequeña y la mayoría de los casos.
Nodo terminal 1 tiene la media más pequeña y una desviación estándar de aproximadamente 4.3. Debido a que la media de Nodo terminal 1 es aproximadamente 5.9 y los valores de respuesta no pueden ser negativos, las estadísticas del nodo sugieren que los datos en Nodo terminal 1 son probablemente asimétricos hacia la derecha.
Utilice el gráfico de importancia relativa de variable para ver qué predictores son las variables más importantes para el árbol.
Las variables importantes son divisores primarios o sustitutos en el árbol. La variable con la puntuación de mejora más alta se establece como la variable más importante, y las otras variables se clasifican en consecuencia. La importancia relativa de las variables estandariza los valores de importancia para facilitar la interpretación. La importancia relativa se define como la mejora porcentual con respecto al predictor más importante.
Los valores de importancia relativa de la variable oscilan entre 0% y 100%. La variable más importante siempre tiene una importancia relativa de 100%. Si una variable no está en el árbol, esa variable no es importante.
Aunque estos resultados incluyen 33 variables con importancia positiva, las clasificaciones relativas proporcionan información sobre cuántas variables controlar o supervisar para una determinada aplicación. Las caídas pronunciadas en los valores de importancia relativa de una variable a la siguiente variable pueden guiar las decisiones sobre qué variables controlar o supervisar. Por ejemplo, en estos datos, las tres variables más importantes tienen valores de importancia que son relativamente cercanos antes de una caída de casi 40% en importancia relativa para la siguiente variable. Del mismo modo, tres variables tienen valores de importancia similares cercanos a 50%. Puede quitar variables de diferentes grupos y rehacer el análisis para evaluar cómo afectan las variables de varios grupos a los valores de exactitud de predicción de la tabla de resumen del modelo.