Exemplo de Classificação CART®

Uma equipe de pesquisadores coleta e publica informações detalhadas sobre fatores que afetam doenças cardíacas. As variáveis incluem idade, sexo, níveis de colesterol, frequência cardíaca máxima e muito mais. Este exemplo é baseado em um conjunto de dados públicos que fornece informações detalhadas sobre doenças cardíacas. Os dados originais são de archive.ics.uci.edu.

Os pesquisadores querem criar uma árvore de classificação que identifique preditores importantes a fim de indicar se um paciente tem doença cardíaca.

  1. Abra os dados amostrais, BinarioDeDoencasCardiacas.MTW.
  2. Escolha Módulo de análise preditiva > Classificação CART®.
  3. Na lista suspensa, selecione Resposta binária.
  4. Em Resposta, digite Doença cardíaca.
  5. Em Evento de resposta, selecione Sim para indicar que a doença cardíaca foi identificada no paciente.
  6. Em Preditores contínuos, digite Idade, Pressão Arterial de descanso, Colesterol, Max Heart Rate, e Pico Antigo.
  7. Em Preditores categóricos, digite Sexo, Tipo de dor torácica, Açúcar no sangue em jejum, Resto ECG, Exercício Angina, Inclinação, Principais Navios, e Thal.
  8. Clique em OK.

Interpretar os resultados

Por padrão, o Minitab exibe a menor árvore com um custo de classificação errada dentro de 1 erro padrão da árvore que minimiza o custo de classificação errada. Esta árvore tem 4 nós terminais.

Antes de os pesquisadores examinarem a árvore, eles analisam o gráfico que mostra o custo de classificação errada da validação cruzada e o número de nós terminais. Neste gráfico, o padrão em que o custo de classificação errada diminui continua após a árvore de 4 nós. Em um caso como este, os analistas optam por explorar algumas das outras árvores simples que têm menores custos de classificação errada.

Selecione uma árvore alternativa

  1. Na saída, clique em Selecionar uma árvore alternativa
  2. No gráfico, selecione a árvore de 7 nós que tenha o menor custo de classificação e o melhor valor de ROC.
  3. Clique em Criar árvore.

Interpretar os resultados

No diagrama da árvore, itens que são azuis são para o nível do evento. Os itens em vermelho são para o nível não evento. Nesta saída, o nível do evento é "Sim" e indica que alguém tem doença cardíaca. O nível de não evento é "Não" e indica que alguém não tem doença cardíaca.

No nó raiz, há 139 contagens do evento Sim e 164 contagens do evento Não. O nó raiz é dividido usando a variável, THAL. Quando THAL = Normal, vá para o nó esquerdo (Nó 2). Quando THAL = Fixo ou Reversível, vá para o nó direito (Nó 5).
  • Nó 2: Há 167 casos em que o THAL era Normal. Dos 167 casos, 38 ou 22,8% são Sim e 129 ou 77,2% são Não.
  • Nó 5: Há 136 casos em que o THAL era Fixo ou Reversível. Dos 136 casos, 101 ou 74,3% são Sim e 35 ou 25,7% são Não.

O próximo divisor para o nó filho esquerdo e o nó filho direito é o Tipo dor no peito, em que a dor é classificada como 1, 2, 3 ou 4.

Explore outros nós para ver quais são as variáveis mais interessantes. Os nós que são majoritariamente azuis indicam uma forte proporção do nível de evento. Os nós que são majoritariamente vermelhos indicam uma forte proporção do nível de não evento.

O diagrama de árvore usa todo o conjunto de dados ou o conjunto de dados de treinamento. Você pode alternar as visualizações da árvore entre a vista detalhada e vista dividida do nó.

Esta árvore tem um custo de classificação errada de cerca de 0,391.

A variável preditora mais importante é o Tipo de dor torácica. Se a contribuição da variável preditora superior, Tipo de Dor Torácica, é de 100%, então a próxima variável importante, Vasos Maiores, tem uma contribuição de 86,5%. Isso significa que os Vasos Principais são 86,5% tão importantes quanto o Tipo de Dor Torácica nesta árvore de classificação.

A área sob a curva ROC para os dados do teste é de 0,8200, o que indica, em muitas aplicações, um desempenho de classificação razoável. Para aplicativos que exigem maior precisão de previsão, você pode tentar melhorar o desempenho com um Classificação TreeNet® modelo ou um Classificação Random Forests® modelo.

Neste exemplo, o gráfico de ganho mostra um aumento acentuado acima da linha de referência, em seguida, um achatamento. Neste caso, aproximadamente 40% dos dados representam aproximadamente 70% dos positivos verdadeiros.

Neste exemplo, o gráfico de elevação mostra um aumento acima da linha de referência que cai gradualmente.

Classificação CART® de 7 nós: Doença cardíaca versus Idade; Pressão Arterial de descanso; Colesterol; Max Heart Rate; Pico Antigo; Sexo; Açúcar no sangue em jejum; Exercício Angina; Resto ECG; Inclinação; Thal; Tipo de dor torácica; Principais Navios

Método

Probabilidades a prioriMesmo para todas as classes
Divisão de nósGini
Árvore ótimaCusto mínimo de classificação errada
Validação do modeloValidação cruzada de 10 dobras
Linhas usadas303

Informações de resposta binária

VariávelClasseContagem%
Doença cardíacaSim (Evento)13945,87
  Não16454,13
  Todos303100,00

Sumário do modelo

Preditores totais13
Preditores importantes13
Número de nós terminais7
Tamanho mínimo do nó terminal5
EstatísticasTreinamentoTeste
-Log da Verossimilhança Média0,39710,5094
Área sob a curva ROC0,88610,8200
        IC de 95%(0,5590; 1)(0,7702; 0,8697)
Elevação1,93761,8165
Custo de classificação errada0,29240,3909

Matriz de confusão



Classe predita
(Treinamento)





Classe predita (Teste)
Classe realContagemSimNão% CorretoSimNão% Correto
Sim (Evento)1391172284,21053475,5
Não1642214286,62414085,4
Todos30313916485,512917480,9
EstatísticasTreinamento
(%)
Teste (%)
Taxa de positivo verdadeiro (sensibil. ou poder)84,275,5
Taxa de positivo falso (erro tipo I)13,414,6
Taxa de negativo falso (erro tipo II)15,824,5
Taxa de negativo verdadeiro (especificidade)86,685,4

Classificação errada

Custo de
classificação
errada de
entrada
Classe predita
Classe realSimNão
Sim  1,00
Não1,00 


TreinamentoTeste


Classificado
errado
% de erroCustoClassificado
errado
% de erroCusto
Classe realContagem



Sim (Evento)1392215,80,15833424,50,2446
Não1642213,40,13412414,60,1463
Todos3034414,50,14625819,10,1955