Otimização de hiperparâmetros para Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet®

Encontre definições e orientações de interpretação para a tabela de avaliação de modelo.
Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Use os resultados para comparar o desempenho dos modelos com diferentes configurações para os hiperparâmetros. Clique em Sintonizar hiperparâmetros para identificar um modelo melhor para avaliar valores adicionais dos hiperparâmetros.

Número ótimo de árvores

O número ótimo de árvores geralmente difere a cada passo. Quando o número ótimo está próximo do número máximo de árvores para a análise, o modelo é mais provável de melhorar se você aumentar o número de árvores em vez de usar um modelo com um número ótimo de árvores que está longe do máximo. Você pode considerar se deve explorar um modelo alternativo que parece provável que melhore.

Média − Log-verossimilhança

A probabilidade média de log-verossimilhança é uma medida de precisão do modelo. Valores menores indicam um ajuste melhor.

Quando a resposta é binária, você pode usar a log-verossimilhança máxima como critério para a seleção do melhor modelo. Os resultados completos que seguem a tabela são para o modelo com o menor valor da média – log-verossimilhança.

Área sob a curva ROC

A curva ROC traça a taxa de positivos verdadeiros (TPR), também conhecida como poder, no eixo y. A curva ROC traça a taxa de falsos positivos (FPR), também conhecida como erro tipo 1, no eixo x. A área sob uma curva ROC indica se o modelo é um bom classificador.

Para árvores de classificação, a área sob os valores da curva ROC variam tipicamente de 0,5 a 1. Os valores maiores indicam um modelo de ajuste melhor. Quando o modelo consegue separar perfeitamente as classes, a área sob a curva é 1. Quando o modelo não consegue separar as classes melhor do que uma atribuição aleatória, a área sob a curva é 0,5.

Quando você usar a área máxima sob a curva ROC como critério para a seleção do melhor modelo, a tabela incluirá a área sob a curva ROC para cada modelo. Os resultados completos que seguem a tabela são para o modelo com a maior área sob a curva ROC.

Taxa de classificação errada

A taxa de classificação errada indica com que frequência o modelo classifica com exatidão os valores de resposta. Valores menores indicam melhor desempenho.

Quando você usar a taxa mínima de classificação errada como critério para a seleção do melhor modelo, a tabela incluirá a taxa de classificação errada de cada modelo. Os resultados completos que seguem a tabela são para o modelo com a menor taxa de classificação errada.

Taxa de aprendizado

As taxas de aprendizado baixas pesam cada nova árvore no modelo menos do que as taxas de aprendizado mais altas e, às vezes, produzem mais árvores para o modelo. Um modelo com taxa de aprendizagem baixa tem menos chance de sobreajustar o conjunto de dados de treinamento. Modelos com baixas taxas de aprendizado geralmente usam mais árvores para encontrar o número ótimo de árvores.

Fração da subamostra

A fração da subamostra é a proporção dos dados que a análise usa para construir cada árvore.

Máximo de nós terminais por árvore

Classificação TreeNet® combina muitas árvores CART® pequenas em um modelo poderoso. A tabela inclui qualquer hiperparâmetro que esteja na análise, seja o número máximo de nós terminais por árvore ou a profundidade máxima da árvore. Árvores com nós mais terminais podem modelar interações mais complexas. Em geral, valores acima de 12 poderiam retardar a análise sem muito benefício para o modelo.

Profundidade máxima da árvore

Classificação TreeNet® combina muitas árvores CART® pequenas em um modelo poderoso. Você pode especificar o número máximo de nós terminais ou a profundidade máxima da árvore para essas árvores CART® menores. Árvores mais profundas podem modelar interações mais complexas. Valores de 4 a 6 são adequados para muitos conjuntos de dados.