O Gráfico de R-quadrado vs número de nós terminais exibe o valor de R2 para cada árvore. Por padrão, a árvore de regressão inicial é a menor árvore com um valor R2 dentro de 1 erro padrão do valor para a árvore que maximiza o valor de R2. Quando a análise usa validação cruzada ou um conjunto de dados de teste, o valor R2 é da amostra de validação. Os valores para a amostra de validação normalmente nivelam e, em algum momento, começam a diminuir à medida que a árvore cresce.
Clique em Selecionar uma árvore alternativa para abrir um gráfico interativo que inclui uma tabela de estatística de sumário do modelo. Use o gráfico para investigar árvores alternativas com desempenho semelhante.
A árvore de regressão com 21 nós terminais tem um valor de R2 de aproximadamente 0,78. Esta árvore tem o rótulo "Ótimo" porque o critério para a criação da árvore foi a menor árvore com valor R2 dentro de 1 desvio padrão do valor máximo de R2. Como este gráfico mostra que os valores de R2 são relativamente estáveis entre árvores com cerca de 20 nós para árvores com cerca de 70 nós, é recomendável que os pesquisadores observem o desempenho de algumas das árvores ainda menores que são semelhantes à árvore nos resultados. Compare o gráfico a seguir para ver os resultados de uma árvore com 17 nós.
A árvore de regressão com 17 nós terminais tem um valor de R2 de 0,7661. A árvore dos resultados iniciais mantém o rótulo "Ótimo" quando você usa Selecionar uma árvore alternativa para criar resultados para uma árvore diferente.
Depois de selecionar uma árvore, investigue os nós terminais distintos no diagrama de árvore. Por exemplo, você pode estar interessado em nós com médias grandes ou com desvios padrão pequenos. Na visão detalhada, é possível ver o desvio médio, padrão e contagem total para cada nó.
Clique com o botão direito do mouse no diagrama de árvore para realizar as seguintes interações:
Os nós continuam a ser divididos até que os nós terminais não possam mais ser divididos em agrupamentos adicionais. Explore outros nós para ver quais são as variáveis mais interessantes.
O diagrama de árvore mostra todos os 4453 casos do conjunto de dados completo. Você pode alternar as visualizações da árvore entre a vista detalhada e dividida do nó.
Em seguida, o Nó 2 divide por Frequência de Abuso de Substâncias e o Nó 8 divide por Uso de Álcool. O Nó Terminal 17 tem os casos para Terapia de Medicação Planejada = 2, Uso de Álcool = 1, e Fonte de referência = 3, 5, 6, 100, 300, 400, 600, 700 ou 800. Os pesquisadores observam que o Nó Terminal 17 tem a média mais alta, o menor desvio padrão e a maioria dos casos.
O Nó Terminal 1 tem a menor média e um desvio padrão de aproximadamente 4,3. Como a média do Nó Terminal 1 é de aproximadamente 5,9 e os valores de resposta não podem ser negativos, a estatística do nó sugerem que os dados no Nó Terminal 1 provavelmente são assimétricos à direita.
Use o gráfico da importância relativa da variável para ver quais preditores são as variáveis mais importantes para a árvore.
As variáveis importantes são um divisor primário ou substituto na árvore. A variável com maior pontuação de melhoria é definida como a variável mais importante, e as outras variáveis são classificadas de acordo. A importância relativa da variável padroniza os valores de importância para proporcionar facilidade de interpretação. A importância relativa é definida como a melhoria percentual em relação ao preditor mais importante.
Os valores da importância relativa da variável variam de 0% a 100%. A variável mais importante sempre tem uma importância relativa de 100%. Se uma variável não estiver na árvore, essa variável não é importante.
Embora esses resultados incluam 33 variáveis com importância positiva, os rankings relativos fornecem informações sobre quantas variáveis devem ser controladas ou monitoradas para uma determinada aplicação. Quedas íngremes nos valores de importância relativa de uma variável para a próxima variável podem orientar as decisões sobre quais variáveis devem ser controladas ou monitoradas. Por exemplo, nesses dados, as três variáveis mais importantes têm valores de importância relativamente próximos antes de uma queda de quase 40% na importância relativa para a próxima variável. Da mesma forma, três variáveis têm valores de importância semelhantes próximos a 50%. Você pode remover variáveis de diferentes grupos e refazer a análise para avaliar como as variáveis em vários grupos afetam os valores de exatidão da predição na tabela Sumário do modelo.