Exemplo de Ajuste de modelo com Classificação TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores coleta e publica informações detalhadas sobre fatores que afetam doenças cardíacas. As variáveis incluem idade, sexo, níveis de colesterol, frequência cardíaca máxima e muito mais. Este exemplo é baseado em um conjunto de dados públicos que fornece informações detalhadas sobre doenças cardíacas. Os dados originais são de archive.ics.uci.edu.

Após a exploração inicial com Classificação CART® para identificar os preditores importantes, os pesquisadores usam Classificação TreeNet® e Classificação Random Forests® para criar modelos mais aprofundados a partir do mesmo conjunto de dados. Os pesquisadores comparam a tabela de sumário do modelo e o gráfico ROC dos resultados para avaliar qual modelo proporciona um resultado de predição melhor. Para os resultados das demais análises, vá para Exemplo de Classificação CART® e Exemplo de Classificação Random Forests®.

  1. Abra os dados amostrais, BinarioDeDoencasCardiacas.MTW.
  2. Selecione Módulo de análise preditiva > Classificação TreeNet® > Ajuste de modelo.
  3. Na lista suspensa, selecione Resposta binária.
  4. Em Resposta, digite Doença cardíaca.
  5. Em Evento de resposta, selecione Sim para indicar que a doença cardíaca foi identificada no paciente.
  6. Em Preditores contínuos, digite Idade, Pressão Arterial de descanso, Colesterol, Max Heart Rate, e Pico Antigo.
  7. Em Preditores categóricos, digite Sexo, Tipo de dor torácica, Açúcar no sangue em jejum, Resto ECG, Exercício Angina, Inclinação, Principais Navios, e Thal.
  8. Clique em OK.

Interpretar os resultados

Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 298. Como o número ótimo de árvores está próximo ao número máximo de árvores cultivadas pelo modelo, os pesquisadores repetem a análise com mais árvores.

Sumário do modelo

Preditores totais13
Preditores importantes13
Número de árvores cultivadas300
Número ótimo de árvores298
EstatísticasTreinamentoTeste
-Log da Verossimilhança Média0,25560,3881
Área sob a curva ROC0,97960,9089
        IC de 95%(0,9664; 0,9929)(0,8759; 0,9419)
Elevação2,17992,1087
Taxa de classificação errada0,08910,1617

Exemplo com 500 árvores

  1. Selecione Ajustar hiperparâmetros nos resultados.
  2. Em Número de árvores, insira 500.
  3. Clique em Exibir resultados.

Interpretar os resultados

Para esta análise, foram cultivadas 500 árvores e o número ótimo de árvores é de 351. O melhor modelo usa uma taxa de aprendizado de 0,01, usa uma fração de subamostra de 0,5 e usa 6 como o número máximo de nós terminais.

Método

Critério para seleção do número ótimo de árvoresLog-verossimilhança máximo
Validação do modeloValidação cruzada de 5 dobras
Taxa de aprendizado0,01
Método de seleção da subamostraCompletamente aleatório
    Fração da subamostra0,5
Nós máximos terminais por árvore6
Tamanho mínimo do nó terminal3
Número de preditores selecionados para divisão de nósNúmero total de preditores = 13
Linhas usadas303

Informações de resposta binária

VariávelClasseContagem%
Doença cardíacaSim (Evento)13945,87
  Não16454,13
  Todos303100,00
Classificação TreeNet® com ajuste de hiperparâmetros: Doença cardíaca versus Idade; Pressão Arterial de descanso; Colesterol; Max Heart Rate; Pico Antigo; Sexo; Tipo de dor torácica; Açúcar no sangue em jejum; Resto ECG; Exercício Angina; Inclinação; Principais Navios; Thal

Método

Critério para seleção do número ótimo de árvoresLog-verossimilhança máximo
Validação do modeloValidação cruzada de 5 dobras
Taxa de aprendizado0,001; 0,01; 0,1
Fração da subamostra0,5; 0,7
Nós máximos terminais por árvore6
Tamanho mínimo do nó terminal3
Número de preditores selecionados para divisão de nósNúmero total de preditores = 13
Linhas usadas303

Informações de resposta binária

VariávelClasseContagem%
Doença cardíacaSim (Evento)13945,87
  Não16454,13
  Todos303100,00

Otimização de hiperparâmetros

Teste
ModeloNúmero
ótimo de
árvores
-Log da
Verossimilhança
Média
Área sob a
curva ROC
Taxa de
classificação
errada
Taxa de
aprendizado
Fração da
subamostra
15000,5429020,9029560,1717490,0010,5
2*3510,3865360,9089200,1750270,0100,5
3330,3965550,9007820,1616940,1000,5
45000,5432920,8941780,1781420,0010,7
53740,3896070,9066200,1650820,0100,7
6390,3933820,9013990,1749730,1000,7
ModeloMáximo de
do nós
terminais
16
2*6
36
46
56
66
* O modelo ótimo tem -Log da Verossimilhança Média mínima. A saída para o modelo ótimo vem na
     sequência.

O gráfico de log-verossimilhança médio vs número de árvores mostra toda a curva sobre o número de árvores cultivadas. O valor ótimo para os dados do teste é 0,3865 quando o número de árvores é 351.

Sumário do modelo

Preditores totais13
Preditores importantes13
Número de árvores cultivadas500
Número ótimo de árvores351
EstatísticasTreinamentoTeste
-Log da Verossimilhança Média0,23410,3865
Área sob a curva ROC0,98250,9089
        IC de 95%(0,9706; 0,9945)(0,8757; 0,9421)
Elevação2,17992,1087
Taxa de classificação errada0,07590,1750

Sumário do modelo

Preditores totais13
Preditores importantes13
EstatísticasOut-of-Bag
-Log da Verossimilhança Média0,4004
Área sob a curva ROC0,9028
        IC de 95%(0,8693; 0,9363)
Elevação2,1079
Taxa de classificação errada0,1848

A tabela sumário do modelo mostra que a probabilidade média negativa de log-verossimilhança quando o número de árvores é de 351 é aproximadamente 0,23 para os dados de treinamento e é aproximadamente 0,39 para os dados de teste. Essas estatísticas indicam um modelo semelhante ao que o Minitab Random Forests® cria. Além disso, as taxas de classificação errada são semelhantes.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é o Thal. Se a contribuição da variável preditora superior, Thal, for de 100%, então a próxima variável importante, Vasos principais, tem uma contribuição de 97,8%. Isso significa que os Vasos principais são 97,8% tão importantes quanto Thal neste modelo de classificação.

Matriz de confusão



Classe predita
(Treinamento)





Classe predita (Teste)
Classe realContagemSimNão% CorretoSimNão% Correto
Sim (Evento)1391241589,211102979,14
Não164815695,122414085,37
Todos30313217192,4113416982,51
Atribua uma linha à classe de eventos se a probabilidade de evento para a linha exceder 0,5.
     
EstatísticasTreinamento
(%)
Teste (%)
Taxa de positivo verdadeiro (sensibil. ou poder)89,2179,14
Taxa de positivo falso (erro tipo I)4,8814,63
Taxa de negativo falso (erro tipo II)10,7920,86
Taxa de negativo verdadeiro (especificidade)95,1285,37

A matriz confusão mostra se o modelo separa as classes bem e corretamente. Neste exemplo, a probabilidade de um evento ser predito corretamente é de 79,14%. A probabilidade de que um não evento ser predito corretamente é de 85,37%.

Classificação errada



TreinamentoTeste


Classificado
errado
% de erroClassificado
errado
% de erro
Classe realContagem

Sim (Evento)1391510,792920,86
Não16484,882414,63
Todos303237,595317,49
Atribua uma linha à classe de eventos se a probabilidade de evento para a linha exceder 0,5.

A taxa de classificação errada ajuda a indicar se o modelo irá predizer novas observações com exatidão. Para predição de eventos, o erro de classificação errada do teste é de 20,86%. Para a predição de não evento, o erro de classificação incorreta é de 14,63% e, no geral, o erro de classificação incorreta é de 17,49%.

A área sob a curva ROC quando o número de árvores é 351 é aproximadamente 0,98 para os dados de treinamento e é aproximadamente 0,91 para os dados de teste. Isso mostra uma boa melhora em relação ao modelo de Classificação CART®. O modelo Classificação Random Forests® tem um teste AUROC de 0,9028, de modo que esses dois métodos produzem resultados semelhantes.

Neste exemplo, o gráfico de ganho mostra um aumento acentuado acima da linha de referência, em seguida, um achatamento. Neste caso, aproximadamente 40% dos dados representam aproximadamente 80% dos positivos verdadeiros. Essa diferença é o ganho extra com o uso do modelo.

Neste exemplo, o gráfico de elevação mostra um grande aumento acima da linha de referência que cai gradualmente.

Use os gráficos de dependência parcial para obter uma visão de como as variáveis importantes ou pares de variáveis afetam a resposta predita. Os valores de resposta na escala de meio log são as predições oriundas do modelo. Os gráficos de dependência parcial mostram se a relação entre a resposta e uma variável é linear, monotônica ou mais complexa.

Por exemplo, no gráfico de dependência parcial que traça o tipo de dor torácica, as chances de meio log variam, e depois aumentam vertiginosamente. Quando o tipo de dor torácica é 4, as chances de meio log da incidência de doenças cardíacas aumentam de aproximadamente −0,04 para 0,03. Selecione Gráficos de um preditor ou Gráficos de dois preditores para produzir gráficos para outras variáveis