La gráfica de R-cuadrado vs.número de nodos terminales muestra el valor de R2 para cada árbol. Por opción predeterminada, el árbol de regresión inicial es el árbol más pequeño con un valor de R2 dentro de 1 error estándar del valor para el árbol que maximiza el valor de R2. Cuando el análisis utiliza la validación cruzada o un conjunto de datos de prueba, el valor de R2 procede del ejemplo de validación. Los valores de la muestra de validación normalmente se nivelan y, finalmente, comienzan a disminuir a medida que el árbol crece.
Haga clic en Seleccionar árbol alternativo para abrir una gráfica interactiva que incluya una tabla de estadísticas de resumen del modelo. Utilice la gráfica para investigar árboles alternativos con un rendimiento similar.
Después de seleccionar un árbol, investigue los nodos terminales distintivos en el diagrama de árbol. Por ejemplo, es posible que le interesen nodos con medias grandes o con pequeñas desviaciones estándar. En la vista detallada, puede ver la media, la desviación estándar y los conteos totales de cada nodo.
Haga clic con el botón derecho en el diagrama de árbol para realizar las siguientes interacciones:
Los nodos continúan dividiéndose hasta que los nodos terminales no se pueden dividir en agrupaciones adicionales. Explore otros nodos para ver qué variables son más interesantes.
Entonces, Nodo 2 se divide entre Frecuencia del abuso de sustancias y Nodo 8 se divide entre el Consumo de alcohol. Nodo terminal 17 tiene los casos para Terapia de medicamentos planificada = 2, Consumo de alcohol = 1 y Fuente de referencia = 3, 5, 6, 100, 300, 400, 600, 700 u 800. Los investigadores señalan que Nodo terminal 17 tiene la media más alta, la desviación estándar más pequeña y la mayoría de los casos.
Nodo terminal 1 tiene la media más pequeña y una desviación estándar de aproximadamente 4.3. Debido a que la media de Nodo terminal 1 es aproximadamente 5.9 y los valores de respuesta no pueden ser negativos, las estadísticas del nodo sugieren que los datos en Nodo terminal 1 son probablemente asimétricos hacia la derecha.
Utilice el gráfico de importancia relativa de variable para ver qué predictores son las variables más importantes para el árbol.
Las variables importantes son divisores primarios o sustitutos en el árbol. La variable con la puntuación de mejora más alta se establece como la variable más importante, y las otras variables se clasifican en consecuencia. La importancia relativa de las variables estandariza los valores de importancia para facilitar la interpretación. La importancia relativa se define como la mejora porcentual con respecto al predictor más importante.
Los valores de importancia relativa de la variable oscilan entre 0% y 100%. La variable más importante siempre tiene una importancia relativa de 100%. Si una variable no está en el árbol, esa variable no es importante.