Interprete os principais resultados para Regressão CART®

Complete os seguintes passos para interpretar Regressão CART®. A saída principal inclui o diagrama de árvore, R2, importância da variável e o gráfico de resíduos.

Passo 1: Investigue as árvores alternativas

O Gráfico de R-quadrado vs número de nós terminais exibe o valor de R2 para cada árvore. Por padrão, a árvore de regressão inicial é a menor árvore com um valor R2 dentro de 1 erro padrão do valor para a árvore que maximiza o valor de R2. Quando a análise usa validação cruzada ou um conjunto de dados de teste, o valor R2 é da amostra de validação. Os valores para a amostra de validação normalmente nivelam e, em algum momento, começam a diminuir à medida que a árvore cresce.

Clique em Selecionar uma árvore alternativa para abrir um gráfico interativo que inclui uma tabela de estatística de sumário do modelo. Use o gráfico para investigar árvores alternativas com desempenho semelhante.

Normalmente, você seleciona uma árvore alternativa por uma das duas razões a seguir:
  • A árvore que o Minitab seleciona faz parte de um padrão em que o critério melhora. Uma ou mais árvores que têm mais alguns nós fazem parte do mesmo padrão. Normalmente, é aconselhável fazer predições de uma árvore com o máximo de exatidão de predição possível.
  • A árvore que o Minitab seleciona faz parte de um padrão em que o critério é relativamente plano. Uma ou mais árvores com estatística semelhantes de sumário do modelo têm muito menos nós do que a árvore ótima. Normalmente, uma árvore com menos nós terminais proporcionam uma visão mais clara de como cada variável preditora afeta os valores de resposta. Uma árvore menor também facilita a identificação de alguns grupos-alvo para a realização de estudos adicionais. Se a diferença na exatidão da predição para uma árvore menor for insignificante, você também pode usar a árvore menor para avaliar as relações entre a resposta e as variáveis preditoras.
Principal resultado: Os gráficos de R-quadrado vs número de nós terminais para árvore com 21 nós terminais

A árvore de regressão com 21 nós terminais tem um valor de R2 de aproximadamente 0,78. Esta árvore tem o rótulo "Ótimo" porque o critério para a criação da árvore foi a menor árvore com valor R2 dentro de 1 desvio padrão do valor máximo de R2. Como este gráfico mostra que os valores de R2 são relativamente estáveis entre árvores com cerca de 20 nós para árvores com cerca de 70 nós, é recomendável que os pesquisadores observem o desempenho de algumas das árvores ainda menores que são semelhantes à árvore nos resultados. Compare o gráfico a seguir para ver os resultados de uma árvore com 17 nós.

Principal resultado: Os gráficos de R-quadrado vs número de nós terminais para árvore com 17 nós terminais

A árvore de regressão com 17 nós terminais tem um valor de R2 de 0,7661. A árvore dos resultados iniciais mantém o rótulo "Ótimo" quando você usa Selecionar uma árvore alternativa para criar resultados para uma árvore diferente.

Passo 2: Investigue os nós interessantes no diagrama de árvore

Depois de selecionar uma árvore, investigue os nós terminais distintos no diagrama de árvore. Por exemplo, você pode estar interessado em nós com médias grandes ou com desvios padrão pequenos. Na visão detalhada, é possível ver o desvio médio, padrão e contagem total para cada nó.

Observação

Clique com o botão direito do mouse no diagrama de árvore para realizar as seguintes interações:

  • Destaque para os 5 nós com a menor variação do valor ajustado para o nó. Esses nós são os nós ótimos.
  • Destaque para os 5 nós com as médias ou medianas mais altas, dependendo do critério para a árvore.
  • Destaque para os 5 nós com as médias ou medianas mais baixas, dependendo do critério para a árvore.
  • Copie os valores dos preditores que levam a um nó selecionado por você. Esses valores são as regras do nó.
  • Visualizar a exibição dividida do nó. Essa visualização é útil quando você tem uma árvore grande e quer ver apenas quais variáveis dividem os nós.

Os nós continuam a ser divididos até que os nós terminais não possam mais ser divididos em agrupamentos adicionais. Explore outros nós para ver quais são as variáveis mais interessantes.

Principal resultado: Diagrama de árvore para árvore com 17 Nós

O diagrama de árvore mostra todos os 4453 casos do conjunto de dados completo. Você pode alternar as visualizações da árvore entre a vista detalhada e dividida do nó.

O primeiro nó é dividido usando a variável que registra se o paciente fez uso de uma terapia medicamentosa.
  • O Nó 2 tem os casos em que Terapia de Medicação Planejada = 1. Este nó tem 1881 casos. A média para o nó é menor do que a média geral. O desvio padrão para o Nó 2 é de cerca de 5,4, o que é menor do que o desvio padrão geral porque uma divisão produz mais nós puros.
  • O Nó 8 tem os casos em que Terapia de Medicação Planejada = 2. Esse nó tem 2572 casos. A média para o nó é mais do que a média geral. O desvio padrão para o Nó 8 é de cerca de 6,1, o que também é menor do que o desvio padrão geral.

Em seguida, o Nó 2 divide por Frequência de Abuso de Substâncias e o Nó 8 divide por Uso de Álcool. O Nó Terminal 17 tem os casos para Terapia de Medicação Planejada = 2, Uso de Álcool = 1, e Fonte de referência = 3, 5, 6, 100, 300, 400, 600, 700 ou 800. Os pesquisadores observam que o Nó Terminal 17 tem a média mais alta, o menor desvio padrão e a maioria dos casos.

O Nó Terminal 1 tem a menor média e um desvio padrão de aproximadamente 4,3. Como a média do Nó Terminal 1 é de aproximadamente 5,9 e os valores de resposta não podem ser negativos, a estatística do nó sugerem que os dados no Nó Terminal 1 provavelmente são assimétricos à direita.

Passo 3: Determine as variáveis importantes

Use o gráfico da importância relativa da variável para ver quais preditores são as variáveis mais importantes para a árvore.

As variáveis importantes são um divisor primário ou substituto na árvore. A variável com maior pontuação de melhoria é definida como a variável mais importante, e as outras variáveis são classificadas de acordo. A importância relativa da variável padroniza os valores de importância para proporcionar facilidade de interpretação. A importância relativa é definida como a melhoria percentual em relação ao preditor mais importante.

Os valores da importância relativa da variável variam de 0% a 100%. A variável mais importante sempre tem uma importância relativa de 100%. Se uma variável não estiver na árvore, essa variável não é importante.

Principal resultado: Importância relativa da variável

Neste exemplo, a variável preditora mais importante é Uso de Álcool. Se a contribuição da variável preditor mais importante, Uso de Álcool, é de 100%, então você pode comparar as outras variáveis a Uso de Álcool para determinar sua importância. Assim, você pode se concentrar nos preditores mais importantes. A lista a seguir descreve as próximas variáveis mais importantes nesta árvore.
  • Substância Primária do Abuso e Terapia de Medicação Planejada são cerca de 92% tão importantes quanto Uso de Álcool.
  • Uso de heroína é cerca de 55% tão importante quanto Uso de Álcool.
  • Rota de Ingestion Primária de Sub e Fonte de referência são cerca de 48% tão importantes quanto Uso de Álcool.

Embora esses resultados incluam 33 variáveis com importância positiva, os rankings relativos fornecem informações sobre quantas variáveis devem ser controladas ou monitoradas para uma determinada aplicação. Quedas íngremes nos valores de importância relativa de uma variável para a próxima variável podem orientar as decisões sobre quais variáveis devem ser controladas ou monitoradas. Por exemplo, nesses dados, as três variáveis mais importantes têm valores de importância relativamente próximos antes de uma queda de quase 40% na importância relativa para a próxima variável. Da mesma forma, três variáveis têm valores de importância semelhantes próximos a 50%. Você pode remover variáveis de diferentes grupos e refazer a análise para avaliar como as variáveis em vários grupos afetam os valores de exatidão da predição na tabela Sumário do modelo.