Exemplo de Classificação Random Forests®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Uma equipe de pesquisadores coleta e publica informações detalhadas sobre fatores que afetam doenças cardíacas. As variáveis incluem idade, sexo, níveis de colesterol, frequência cardíaca máxima e muito mais. Este exemplo é baseado em um conjunto de dados públicos que fornece informações detalhadas sobre doenças cardíacas. Os dados originais são de archive.ics.uci.edu.

Após a exploração inicial com Classificação CART® para identificar os preditores importantes, os pesquisadores usam Classificação TreeNet® e Classificação Random Forests® para criar modelos mais aprofundados a partir do mesmo conjunto de dados. Os pesquisadores comparam a tabela de sumário do modelo e o gráfico ROC dos resultados para avaliar qual modelo proporciona um resultado de predição melhor. Para os resultados das demais análises, vá para Exemplo de Classificação CART® e Exemplo de Ajuste de modelo com Classificação TreeNet®.

  1. Abra os dados amostrais, BinarioDeDoencasCardiacas.MTW.
  2. Selecione Módulo de análise preditiva > Classificação do Random Forests®.
  3. Na lista suspensa, selecione Resposta binária.
  4. Em Resposta, digite Doença cardíaca.
  5. Em Evento de resposta, selecione Sim para indicar que a doença cardíaca foi identificada no paciente.
  6. Em Preditores contínuos, insira Idade, Pressão Arterial de descanso, Colesterol, Max Heart Rate, e Pico Antigo.
  7. Em Preditores categóricos, insira Sexo, Tipo de dor torácica, Açúcar no sangue em jejum, Resto ECG, Exercício Angina, Inclinação, Principais Navios, e Thal.
  8. Clique em OK.

Interprete os resultados

Para esta análise, o número de observações é de 303. Cada uma das 300 amostras por bootstrap usa as 303 observações para criar uma árvore. Os dados incluem uma boa divisão de não eventos e eventos.

Método

Validação do modeloValidação com dados usando método out-of-bag
Número de amostras bootstrap300
    Tamanho amostralO mesmo que o tamanho dos dados de treinamento de 303
Número de preditores selecionados para divisão de nósRaiz quadrada do número total de preditores = 3
Tamanho mínimo do nó interno2
Linhas usadas303

Informações de resposta binária

VariávelClasseContagem%
Doença cardíacaSim (Evento)13945,87
  Não16454,13
  Todos303100,00

A taxa de classificação errada vs número de árvores mostra toda a curva sobre o número de árvores cultivadas. A taxa de classificação errada é de aproximadamente 0,18.

Sumário do modelo

Preditores totais13
Preditores importantes13
EstatísticasOut-of-Bag
-Log da Verossimilhança Média0,4004
Área sob a curva ROC0,9028
        IC de 95%(0,8693; 0,9363)
Elevação2,1079
Taxa de classificação errada0,1848

Sumário do modelo

Preditores totais13
Preditores importantes13
Número de árvores cultivadas500
Número ótimo de árvores351
EstatísticasTreinamentoTeste
-Log da Verossimilhança Média0,23410,3865
Área sob a curva ROC0,98250,9089
        IC de 95%(0,9706; 0,9945)(0,8757; 0,9421)
Elevação2,17992,1087
Taxa de classificação errada0,07590,1750

A tabela de sumário do modelo mostra que o log-verossimilhança negativo médio é de 0,3994. Essas estatísticas indicam um modelo semelhante ao que o Minitab TreeNet® cria quando cultiva 500 árvores. Além disso, as taxas de classificação errada são semelhantes.

O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é Vasos principais. Se a contribuição da variável preditora superior, Vasos principais,, for de 100%, então a próxima variável importante, Thal, tem uma contribuição de 89,7%. Isso significa que Thal é 89,7% tão importantes quanto Vasos principais neste modelo de classificação.

Matriz de confusão


Classe predita (Out-of-Bag)
Classe realContagemSimNão% Correto
Sim (Evento)1391093078,42
Não1642613884,15
Todos30313516881,52
EstatísticasOut-of-Bag
(%)
Taxa de positivo verdadeiro (sensibil. ou poder)78,42
Taxa de positivo falso (erro tipo I)15,85
Taxa de negativo falso (erro tipo II)21,58
Taxa de negativo verdadeiro (especificidade)84,15

A matriz confusão mostra se o modelo separa as classes bem e corretamente. Neste exemplo, a probabilidade de um evento ser predito corretamente é de 78,42%. A probabilidade de que um não evento ser predito corretamente é de 84,15%.

Classificação errada


Out-of-Bag

ContagemClassificado
errado
% de erro
Classe real

Sim (Evento)1393021,58
Não1642615,85
Todos3035618,48

A taxa de classificação errada ajuda a indicar se o modelo irá predizer novas observações com exatidão. Para predição de eventos, o erro de classificação errada do é de 21,58%. Para a predição de não evento, o erro de classificação errada é de 15,85% e, no geral, o erro de classificação errada é de 18,48%.

A área sob a curva ROC para esses dados é de aproximadamente 0,9028, o que mostra uma leve melhora em relação ao modelo Classificação CART®. O modelo Classificação TreeNet® tem um teste AUROC de 0,9089, de modo que esses dois métodos produzem resultados semelhantes.

Neste exemplo, o gráfico de ganho mostra um aumento acentuado acima da linha de referência, em seguida, um achatamento. Neste caso, aproximadamente 40% dos dados representam aproximadamente 78% dos positivos verdadeiros. Essa diferença é o ganho extra com o uso do modelo.

Neste exemplo, o gráfico de elevação mostra um grande aumento acima da linha de referência que cai gradualmente.