Exemplo de Classificação CART®

Uma equipe de pesquisadores coleta e publica informações detalhadas sobre fatores que afetam doenças cardíacas. As variáveis incluem idade, sexo, níveis de colesterol, frequência cardíaca máxima e muito mais. Este exemplo é baseado em um conjunto de dados públicos que fornece informações detalhadas sobre doenças cardíacas. Os dados originais são de archive.ics.uci.edu.

Os pesquisadores querem criar uma árvore de classificação que identifique preditores importantes a fim de indicar se um paciente tem doença cardíaca.

  1. Abra os dados amostrais, BinarioDeDoencasCardiacas.MTW.
  2. Selecione Estat > Análise preditiva > CART® Classificação.
  3. Na lista suspensa, selecione Resposta binária.
  4. Em Resposta, digite Doença cardíaca.
  5. Em Evento de resposta, selecione Sim para indicar que a doença cardíaca foi identificada no paciente.
  6. Em Preditores contínuos, insira Idade, Pressão Arterial de descanso, Colesterol, Max Heart Rate, e Pico Antigo.
  7. Em Preditores categóricos, insira Sexo, Tipo de dor torácica, Açúcar no sangue em jejum, Resto ECG, Exercício Angina, Inclinação, Principais Navios, e Thal.
  8. Clique em OK.

Interprete os resultados

Por padrão, o Minitab exibe a menor árvore com um custo de classificação errada dentro de 1 erro padrão da árvore que minimiza o custo de classificação errada. Esta árvore tem 4 nós terminais.

Antes de os pesquisadores examinarem a árvore, eles analisam o gráfico que mostra o custo de classificação errada da validação cruzada e o número de nós terminais. Neste gráfico, o padrão em que o custo de classificação errada diminui continua após a árvore de 4 nós. Em um caso como este, os analistas optam por explorar algumas das outras árvores simples que têm menores custos de classificação errada.

Selecione uma árvore alternativa

  1. Na saída, clique em Selecionar uma árvore alternativa
  2. No gráfico, selecione a árvore de 7 nós que tenha o menor custo de classificação e o melhor valor de ROC.
  3. Clique em Criar árvore.

Interprete os resultados

No diagrama da árvore, itens que são azuis são para o nível do evento. Os itens em vermelho são para o nível não evento. Nesta saída, o nível do evento é "Sim" e indica que alguém tem doença cardíaca. O nível de não evento é "Não" e indica que alguém não tem doença cardíaca.

No nó raiz, há 139 contagens do evento Sim e 164 contagens do evento Não. O nó raiz é dividido usando a variável, THAL. Quando THAL = Normal, vá para o nó esquerdo (Nó 2). Quando THAL = Fixo ou Reversível, vá para o nó direito (Nó 5).
  • Nó 2: Há 167 casos em que o THAL era Normal. Dos 167 casos, 38 ou 22,8% são Sim e 129 ou 77,2% são Não.
  • Nó 5: Há 136 casos em que o THAL era Fixo ou Reversível. Dos 136 casos, 101 ou 74,3% são Sim e 35 ou 25,7% são Não.

O próximo divisor para o nó filho esquerdo e o nó filho direito é o Tipo dor no peito, em que a dor é classificada como 1, 2, 3 ou 4.

Explore outros nós para ver quais são as variáveis mais interessantes. Os nós que são majoritariamente azuis indicam uma forte proporção do nível de evento. Os nós que são majoritariamente vermelhos indicam uma forte proporção do nível de não evento.

O diagrama de árvore usa todo o conjunto de dados ou o conjunto de dados de treinamento. Você pode alternar as visualizações da árvore entre a vista detalhada e vista dividida do nó.

Esta árvore tem um custo de classificação errada de cerca de 0,391.

A variável preditora mais importante é o Tipo de dor torácica. Se a contribuição da variável preditora superior, Tipo de Dor Torácica, é de 100%, então a próxima variável importante, Vasos Maiores, tem uma contribuição de 86,5%. Isso significa que os Vasos Principais são 86,5% tão importantes quanto o Tipo de Dor Torácica nesta árvore de classificação.

A área sob a curva ROC para os dados do teste é de 0,8200, o que indica, em muitas aplicações, um desempenho de classificação razoável. Para aplicações que requerem maior precisão de previsão, você pode tentar melhorar o desempenho com um modelo Classificação TreeNet® ou Classificação Random Forests®.

Neste exemplo, o gráfico de ganho mostra um aumento acentuado acima da linha de referência, em seguida, um achatamento. Neste caso, aproximadamente 40% dos dados representam aproximadamente 70% dos positivos verdadeiros.

Neste exemplo, o gráfico de elevação mostra um aumento acima da linha de referência que cai gradualmente.

CART® classificação de 7 nós: Doença cardíaca versus Idade; Pressão Arterial de descanso; Colesterol; Max Heart Rate; Pico Antigo; Sexo; Açúcar no sangue em jejum; Exercício Angina; Resto ECG; Inclinação; Thal; Tipo de dor torácica; Principais Navios

Método Probabilidades a priori Mesmo para todas as classes Divisão de nós Gini Árvore ótima Custo mínimo de classificação errada Validação do modelo Validação cruzada de 10 duplicações Linhas usadas 303
Informações de resposta binária Variável Classe Contagem % Doença cardíaca Sim (Evento) 139 45,9 Não 164 54,1 Todos 303 100,0
Resumo do modelo Preditores totais 13 Preditores importantes 13 Número de nós terminais 7 Tamanho mínimo do nó terminal 5 Estatística Treinamento Teste Log-verossimilhança médio 0,3971 0,5094 Área sob a curva ROC 0,8861 0,8200 IC de 95% (0,5590; 1) (0,7702; 0,8697) Elevação 1,9376 1,8165 Custo de classificação errada 0,2924 0,3909
Matriz de confusão Classe predita (Treinamento) Classe predita (Teste) Classe real Contagem Sim Não % Correto Sim Não % Correto Sim (Evento) 139 117 22 84,2 105 34 75,5 Não 164 22 142 86,6 24 140 85,4 Todos 303 139 164 85,5 129 174 80,9 Treinamento Estatísticas (%) Teste (%) Taxa de positivo verdadeiro (sensibil. ou poder) 84,2 75,5 Taxa de positivo falso (erro tipo I) 13,4 14,6 Taxa de negativo falso (erro tipo II) 15,8 24,5 Taxa de negativo verdadeiro (especificidade) 86,6 85,4
Classificação errada Custo de classificação errada de entrada Classe predita Classe real Sim Não Sim 1,00 Não 1,00 Treinamento Teste Classificado Classificado Classe real Contagem errado % de erro Custo errado Sim (Evento) 139 22 15,8 0,1583 34 Não 164 22 13,4 0,1341 24 Todos 303 44 14,5 0,1462 58
Classe real % de erro Custo Sim (Evento) 24,5 0,2446 Não 14,6 0,1463 Todos 19,1 0,1955