Uma equipe de pesquisadores coleta e publica informações detalhadas sobre fatores que afetam doenças cardíacas. As variáveis incluem idade, sexo, níveis de colesterol, frequência cardíaca máxima e muito mais. Este exemplo é baseado em um conjunto de dados públicos que fornece informações detalhadas sobre doenças cardíacas. Os dados originais são de archive.ics.uci.edu.
Os pesquisadores querem criar uma árvore de classificação que identifique preditores importantes a fim de indicar se um paciente tem doença cardíaca.
Por padrão, o Minitab exibe a menor árvore com um custo de classificação errada dentro de 1 erro padrão da árvore que minimiza o custo de classificação errada. Esta árvore tem 4 nós terminais.
No diagrama da árvore, itens que são azuis são para o nível do evento. Os itens em vermelho são para o nível não evento. Nesta saída, o nível do evento é "Sim" e indica que alguém tem doença cardíaca. O nível de não evento é "Não" e indica que alguém não tem doença cardíaca.
O próximo divisor para o nó filho esquerdo e o nó filho direito é o Tipo dor no peito, em que a dor é classificada como 1, 2, 3 ou 4.
Explore outros nós para ver quais são as variáveis mais interessantes. Os nós que são majoritariamente azuis indicam uma forte proporção do nível de evento. Os nós que são majoritariamente vermelhos indicam uma forte proporção do nível de não evento.
O diagrama de árvore usa todo o conjunto de dados ou o conjunto de dados de treinamento. Você pode alternar as visualizações da árvore entre a vista detalhada e vista dividida do nó.
Esta árvore tem um custo de classificação errada de cerca de 0,391.
A variável preditora mais importante é o Tipo de dor torácica. Se a contribuição da variável preditora superior, Tipo de Dor Torácica, é de 100%, então a próxima variável importante, Vasos Maiores, tem uma contribuição de 86,5%. Isso significa que os Vasos Principais são 86,5% tão importantes quanto o Tipo de Dor Torácica nesta árvore de classificação.
A área sob a curva ROC para os dados do teste é de 0,8200, o que indica, em muitas aplicações, um desempenho de classificação razoável. Para aplicativos que exigem maior precisão de previsão, você pode tentar melhorar o desempenho com um Classificação TreeNet® modelo ou um Classificação Random Forests® modelo.
Neste exemplo, o gráfico de ganho mostra um aumento acentuado acima da linha de referência, em seguida, um achatamento. Neste caso, aproximadamente 40% dos dados representam aproximadamente 70% dos positivos verdadeiros.
Neste exemplo, o gráfico de elevação mostra um aumento acima da linha de referência que cai gradualmente.
Probabilidades a priori | Mesmo para todas as classes |
---|---|
Divisão de nós | Gini |
Árvore ótima | Custo mínimo de classificação errada |
Validação do modelo | Validação cruzada de 10 dobras |
Linhas usadas | 303 |
Variável | Classe | Contagem | % |
---|---|---|---|
Doença cardíaca | Sim (Evento) | 139 | 45,87 |
Não | 164 | 54,13 | |
Todos | 303 | 100,00 |
Preditores totais | 13 |
---|---|
Preditores importantes | 13 |
Número de nós terminais | 7 |
Tamanho mínimo do nó terminal | 5 |
Estatísticas | Treinamento | Teste |
---|---|---|
-Log da Verossimilhança Média | 0,3971 | 0,5094 |
Área sob a curva ROC | 0,8861 | 0,8200 |
IC de 95% | (0,5590; 1) | (0,7702; 0,8697) |
Elevação | 1,9376 | 1,8165 |
Custo de classificação errada | 0,2924 | 0,3909 |
Classe predita (Treinamento) | |||||||
---|---|---|---|---|---|---|---|
Classe predita (Teste) | |||||||
Classe real | Contagem | Sim | Não | % Correto | Sim | Não | % Correto |
Sim (Evento) | 139 | 117 | 22 | 84,2 | 105 | 34 | 75,5 |
Não | 164 | 22 | 142 | 86,6 | 24 | 140 | 85,4 |
Todos | 303 | 139 | 164 | 85,5 | 129 | 174 | 80,9 |
Estatísticas | Treinamento (%) | Teste (%) |
---|---|---|
Taxa de positivo verdadeiro (sensibil. ou poder) | 84,2 | 75,5 |
Taxa de positivo falso (erro tipo I) | 13,4 | 14,6 |
Taxa de negativo falso (erro tipo II) | 15,8 | 24,5 |
Taxa de negativo verdadeiro (especificidade) | 86,6 | 85,4 |
Custo de classificação errada de entrada | Classe predita | |
---|---|---|
Classe real | Sim | Não |
Sim | 1,00 | |
Não | 1,00 |
Treinamento | Teste | ||||||
---|---|---|---|---|---|---|---|
Classificado errado | % de erro | Custo | Classificado errado | % de erro | Custo | ||
Classe real | Contagem | ||||||
Sim (Evento) | 139 | 22 | 15,8 | 0,1583 | 34 | 24,5 | 0,2446 |
Não | 164 | 22 | 13,4 | 0,1341 | 24 | 14,6 | 0,1463 |
Todos | 303 | 44 | 14,5 | 0,1462 | 58 | 19,1 | 0,1955 |