Exemplo de Classificação CART^®

Uma equipe de pesquisadores coleta e publica informações detalhadas sobre fatores que afetam doenças cardíacas. As variáveis incluem idade, sexo, níveis de colesterol, frequência cardíaca máxima e muito mais. Este exemplo é baseado em um conjunto de dados públicos que fornece informações detalhadas sobre doenças cardíacas. Os dados originais são de archive.ics.uci.edu.

Os pesquisadores querem criar uma árvore de classificação que identifique preditores importantes a fim de indicar se um paciente tem doença cardíaca.

Abra os dados amostrais, BinarioDeDoencasCardiacas.MWX.
Escolha Módulo de análise preditiva > Classificação CART®.
Na lista suspensa, selecione Resposta binária.
Em Resposta, digite Doença cardíaca.
Em Evento de resposta, selecione Sim para indicar que a doença cardíaca foi identificada no paciente.
Em Preditores contínuos, digite Idade, Pressão Arterial de descanso, Colesterol, Max Heart Rate, e Pico Antigo.
Em Preditores categóricos, digite Sexo, Tipo de dor torácica, Açúcar no sangue em jejum, Resto ECG, Exercício Angina, Inclinação, Principais Navios, e Thal.
Clique em OK.

Interpretar os resultados

Por padrão, o Minitab exibe a menor árvore com um custo de classificação errada dentro de 1 erro padrão da árvore que minimiza o custo de classificação errada. Esta árvore tem 4 nós terminais.

Antes de os pesquisadores examinarem a árvore, eles analisam o gráfico que mostra o custo de classificação errada da validação cruzada e o número de nós terminais. Neste gráfico, o padrão em que o custo de classificação errada diminui continua após a árvore de 4 nós. Em um caso como este, os analistas optam por explorar algumas das outras árvores simples que têm menores custos de classificação errada.

Selecione uma árvore alternativa

Na saída, clique em Selecionar uma árvore alternativa
No gráfico, selecione a árvore de 7 nós que tenha o menor custo de classificação e o melhor valor de ROC.
Clique em Criar árvore.

Interpretar os resultados

No diagrama da árvore, itens que são azuis são para o nível do evento. Os itens em vermelho são para o nível não evento. Nesta saída, o nível do evento é "Sim" e indica que alguém tem doença cardíaca. O nível de não evento é "Não" e indica que alguém não tem doença cardíaca.

No nó raiz, há 139 contagens do evento Sim e 164 contagens do evento Não. O nó raiz é dividido usando a variável, THAL. Quando THAL = Normal, vá para o nó esquerdo (Nó 2). Quando THAL = Fixo ou Reversível, vá para o nó direito (Nó 5).

Nó 2: Há 167 casos em que o THAL era Normal. Dos 167 casos, 38 ou 22,8% são Sim e 129 ou 77,2% são Não.
Nó 5: Há 136 casos em que o THAL era Fixo ou Reversível. Dos 136 casos, 101 ou 74,3% são Sim e 35 ou 25,7% são Não.

O próximo divisor para o nó filho esquerdo e o nó filho direito é o Tipo dor no peito, em que a dor é classificada como 1, 2, 3 ou 4.

Explore outros nós para ver quais são as variáveis mais interessantes. Os nós que são majoritariamente azuis indicam uma forte proporção do nível de evento. Os nós que são majoritariamente vermelhos indicam uma forte proporção do nível de não evento.

O diagrama de árvore usa todo o conjunto de dados ou o conjunto de dados de treinamento. Você pode alternar as visualizações da árvore entre a vista detalhada e vista dividida do nó.

Esta árvore tem um custo de classificação errada de cerca de 0,391.

A variável preditora mais importante é o Tipo de dor torácica. Se a contribuição da variável preditora superior, Tipo de Dor Torácica, é de 100%, então a próxima variável importante, Vasos Maiores, tem uma contribuição de 86,5%. Isso significa que os Vasos Principais são 86,5% tão importantes quanto o Tipo de Dor Torácica nesta árvore de classificação.

A área sob a curva ROC para os dados do teste é de 0,8200, o que indica, em muitas aplicações, um desempenho de classificação razoável. Para aplicativos que exigem maior precisão de previsão, você pode tentar melhorar o desempenho com um Classificação TreeNet^® modelo ou um Classificação Random Forests^® modelo.

Neste exemplo, o gráfico de ganho mostra um aumento acentuado acima da linha de referência, em seguida, um achatamento. Neste caso, aproximadamente 40% dos dados representam aproximadamente 70% dos positivos verdadeiros.

Neste exemplo, o gráfico de elevação mostra um aumento acima da linha de referência que cai gradualmente.

Classificação CART® de 7 nós: Doença cardíaca versus Idade; Pressão Arterial de descanso; Colesterol; Max Heart Rate; Pico Antigo; Sexo; Açúcar no sangue em jejum; Exercício Angina; Resto ECG; Inclinação; Thal; Tipo de dor torácica; Principais Navios

Método

Probabilidades a priori	Mesmo para todas as classes
Divisão de nós	Gini
Árvore ótima	Custo mínimo de classificação errada
Validação do modelo	Validação cruzada de 10 dobras
Linhas usadas	303

Informações de resposta binária

Variável	Classe	Contagem	%
Doença cardíaca	Sim (Evento)	139	45,87
	Não	164	54,13
	Todos	303	100,00

Sumário do modelo

Preditores totais	13
Preditores importantes	13
Número de nós terminais	7
Tamanho mínimo do nó terminal	5

Estatísticas	Treinamento	Teste
-Log da Verossimilhança Média	0,3971	0,5094
Área sob a curva ROC	0,8861	0,8200
IC de 95%	(0,5590; 1)	(0,7702; 0,8697)
Elevação	1,9376	1,8165
Custo de classificação errada	0,2924	0,3909

Matriz de confusão

		Classe predita (Treinamento)
		Classe predita (Treinamento)			Classe predita (Teste)
Classe real	Contagem	Sim	Não	% Correto	Sim	Não	% Correto
Sim (Evento)	139	117	22	84,2	105	34	75,5
Não	164	22	142	86,6	24	140	85,4
Todos	303	139	164	85,5	129	174	80,9

Estatísticas	Treinamento (%)	Teste (%)
Taxa de positivo verdadeiro (sensibil. ou poder)	84,2	75,5
Taxa de positivo falso (erro tipo I)	13,4	14,6
Taxa de negativo falso (erro tipo II)	15,8	24,5
Taxa de negativo verdadeiro (especificidade)	86,6	85,4

Classificação errada

Custo de classificação errada de entrada	Classe predita
Classe real	Sim	Não
Sim		1,00
Não	1,00

		Treinamento			Teste
		Classificado errado	% de erro	Custo	Classificado errado	% de erro	Custo
Classe real	Contagem	Classificado errado			Classificado errado
Sim (Evento)	139	22	15,8	0,1583	34	24,5	0,2446
Não	164	22	13,4	0,1341	24	14,6	0,1463
Todos	303	44	14,5	0,1462	58	19,1	0,1955

Exemplo de Classificação CART®

Interpretar os resultados

Selecione uma árvore alternativa

Interpretar os resultados

Método

Informações de resposta binária

Sumário do modelo

Matriz de confusão

Classificação errada

Exemplo de Classificação CART^®