Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.
Uma equipe de pesquisadores coleta e publica informações detalhadas sobre fatores que afetam doenças cardíacas. As variáveis incluem idade, sexo, níveis de colesterol, frequência cardíaca máxima e muito mais. Este exemplo é baseado em um conjunto de dados públicos que fornece informações detalhadas sobre doenças cardíacas. Os dados originais são de archive.ics.uci.edu.
Os pesquisadores querem encontrar um modelo que faça as previsões mais precisas possíveis. Os pesquisadores usam Descobrir o melhor modelo (Resposta binária) para comparar o desempenho preditivo de 4 tipos de modelos: regressão logística binária, TreeNet®, Random Forests® e CART®. Os pesquisadores planejam explorar ainda mais o tipo de modelo com o melhor desempenho preditivo.
A tabela Seleção de Modelos compara o desempenho dos diferentes tipos de modelos. O modelo de Random Forests® tem o valor mínimo da probabilidade média de loglikelihood. Os resultados a seguir são para o melhor modelo de Random Forests®.
A taxa de classificação errada vs número de árvores mostra toda a curva sobre o número de árvores cultivadas. A taxa de classificação incorreta é de aproximadamente 0,16.
A tabela de sumário do modelo mostra que o log-verossimilhança negativo médio é de 0,39.
O gráfico de importância relativa da variável representa os preditores por ordem de seu efeito sobre a melhoria do modelo quando as divisões são feitas em um preditor sobre a sequência de árvores. A variável preditora mais importante é o Thal. Se a contribuição da variável preditora superior, Thal, for de 100%, então a próxima variável importante, Vasos principais, tem uma contribuição de 98,9%. Isso significa que os Vasos principais são 98,9% tão importantes quanto Thal neste modelo de classificação.
A matriz confusão mostra se o modelo separa as classes bem e corretamente. Neste exemplo, a probabilidade de um evento ser predito corretamente é de 87%. A probabilidade de que um não evento ser predito corretamente é de 81%.
A taxa de classificação errada ajuda a indicar se o modelo irá predizer novas observações com exatidão. Para predição de eventos, o erro de classificação errada do teste é de 13%. Para predição de eventos, o erro de classificação errada do é de 19%. No geral, o erro de classificação errada para os dados do teste é de aproximadamente 16%.
A área sob a curva ROC para o modelo Random Forests® é aproximadamente 0,90 para os dados fora do saco.
Ajuste um modelo de regressão logística stepwise com termos lineares e termos de ordem 2. |
---|
Ajuste 6 modelos de classificação TreeNet®. |
Ajuste 3 modelos de classificação Random Forests® com tamanho amostral de bootstrap igual ao tamanho de dados de treinamento de 303. |
Ajuste um modelo ótimo de classificação CART®. |
Selecione o modelo com logverossimilhança máxima da avaliação cruzada com 5-dobras. |
Número total de linhas: 303 |
Linhas usadas para o modelo de regressão logística: 303 |
Linhas usadas para modelos baseados em árvores: 303 |
Variável | Classe | Contagem | % |
---|---|---|---|
Doença cardíaca | 1 (Evento) | 165 | 54,46 |
0 | 138 | 45,54 | |
Todos | 303 | 100,00 |
Melhor modelo dentro do tipo | -Log da Verossimilhança Média | Área sob a curva ROC | Taxa de classificação errada |
---|---|---|---|
Random Forests®* | 0,3904 | 0,9048 | 0,1584 |
TreeNet® | 0,3907 | 0,9032 | 0,1520 |
Regressão logística | 0,4671 | 0,9142 | 0,1518 |
CART® | 1,8072 | 0,7991 | 0,2080 |
Número de amostras bootstrap | 300 |
---|---|
Tamanho amostral | O mesmo que o tamanho dos dados de treinamento de 303 |
Número de preditores selecionados para divisão de nós | Raiz quadrada do número total de preditores = 3 |
Tamanho mínimo do nó interno | 8 |
Preditores totais | 13 |
---|---|
Preditores importantes | 13 |
Estatísticas | Out-of-Bag |
---|---|
-Log da Verossimilhança Média | 0,3904 |
Área sob a curva ROC | 0,9048 |
IC de 95% | (0,8706; 0,9389) |
Elevação | 1,7758 |
Taxa de classificação errada | 0,1584 |
Classe predita (Out-of-Bag) | ||||
---|---|---|---|---|
Classe real | Contagem | 1 | 0 | % Correto |
1 (Evento) | 165 | 143 | 22 | 86,67 |
0 | 138 | 26 | 112 | 81,16 |
Todos | 303 | 169 | 134 | 84,16 |
Estatísticas | Out-of-Bag (%) |
---|---|
Taxa de positivo verdadeiro (sensibil. ou poder) | 86,67 |
Taxa de positivo falso (erro tipo I) | 18,84 |
Taxa de negativo falso (erro tipo II) | 13,33 |
Taxa de negativo verdadeiro (especificidade) | 81,16 |
Out-of-Bag | |||
---|---|---|---|
Contagem | Classificado errado | % de erro | |
Classe real | |||
1 (Evento) | 165 | 22 | 13,33 |
0 | 138 | 26 | 18,84 |
Todos | 303 | 48 | 15,84 |
Os pesquisadores podem analisar os resultados de outros modelos a partir da busca pelo melhor modelo. Para um modelo TreeNet®, você pode selecionar a partir de um modelo que fez parte da pesquisa ou especificar hiperparmetros para um modelo diferente.
Para esta análise, o Minitab cultiva 300 árvores e o número ótimo de árvores é de 46. O modelo usa uma taxa de aprendizagem de 0,1 e uma fração subsample de 0,5. número máximo de nós terminais por árvore O número máximo de nós terminais por árvore é 6.
Preditores totais | 13 |
---|---|
Preditores importantes | 13 |
Número de árvores cultivadas | 300 |
Número ótimo de árvores | 46 |
Estatísticas | Treinamento | Teste |
---|---|---|
-Log da Verossimilhança Média | 0,2088 | 0,3907 |
Área sob a curva ROC | 0,9842 | 0,9032 |
IC de 95% | (0,9721; 0,9964) | (0,8683; 0,9381) |
Elevação | 1,8364 | 1,7744 |
Taxa de classificação errada | 0,0726 | 0,1520 |
Quando o número de árvores é de 46, a tabela de resumo do modelo indica que a probabilidade média negativa de loglikelihood é aproximadamente 0,21 para os dados de treinamento e aproximadamente 0,39 para os dados do teste.
Classe predita (Treinamento) | |||||||
---|---|---|---|---|---|---|---|
Classe predita (Teste) | |||||||
Classe real | Contagem | 1 | 0 | % Correto | 1 | 0 | % Correto |
1 (Evento) | 165 | 156 | 9 | 94,55 | 147 | 18 | 89,09 |
0 | 138 | 13 | 125 | 90,58 | 28 | 110 | 79,71 |
Todos | 303 | 169 | 134 | 92,74 | 175 | 128 | 84,82 |
Estatísticas | Treinamento (%) | Teste (%) |
---|---|---|
Taxa de positivo verdadeiro (sensibil. ou poder) | 94,55 | 89,09 |
Taxa de positivo falso (erro tipo I) | 9,42 | 20,29 |
Taxa de negativo falso (erro tipo II) | 5,45 | 10,91 |
Taxa de negativo verdadeiro (especificidade) | 90,58 | 79,71 |
A matriz confusão mostra se o modelo separa as classes bem e corretamente. Neste exemplo, a probabilidade de um evento ser predito corretamente é de 89%. A probabilidade de que um não evento ser predito corretamente é de 80%.
Treinamento | Teste | ||||
---|---|---|---|---|---|
Classificado errado | % de erro | Classificado errado | % de erro | ||
Classe real | Contagem | ||||
1 (Evento) | 165 | 9 | 5,45 | 18 | 10,91 |
0 | 138 | 13 | 9,42 | 28 | 20,29 |
Todos | 303 | 22 | 7,26 | 46 | 15,18 |
A taxa de classificação errada ajuda a indicar se o modelo irá predizer novas observações com exatidão. Para a previsão de eventos, o erro de classificação errada do teste é de aproximadamente 11%. Para predição de eventos, o erro de classificação errada do é de 20%. No geral, o erro de classificação errada para os dados do teste é de aproximadamente 15%.