Selecione valores de hiperparâmetro para avaliar Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet®

Execute Módulo de análise preditiva > Classificação TreeNet® > Ajuste de modelo. Clique em Ajustar hiperparâmetros nos resultados.

Execute Módulo de análise preditiva > Classificação TreeNet® > Descobrir preditores-chaves. Clique em Ajustar hiperparâmetros nos resultados.

Visão geral

O desempenho dos modelos TreeNet® é geralmente sensível aos valores da taxa de aprendizagem, à fração de subamostra e à complexidade das árvores individuais que formam o modelo. Em resultados de um modelo, clique Ajustar hiperparâmetros para avaliar múltiplos valores desses hiperparâmetros para saber qual combinação produz os melhores valores de um critério de precisão, como a probabilidade média de log-verossimilhança. Melhores valores desses hiperparâmetros têm o potencial de melhorar significativamente a precisão da predição, de modo que a exploração de diferentes valores é um passo comum na análise.

Você também pode ajustar o número de árvores que o modelo inclui. Em geral, 300 árvores são suficientes para distinguir valores dos hiperparâmetros. Geralmente, você aumenta o número de árvores quando o número ideal de árvores para um ou mais modelos de interesse está próximo do número máximo de árvores. Se o número de árvores estiver mais próximo do número máximo, um aumento no número de árvores é mais provável para melhorar o desempenho do modelo.

Parâmetros de proteção contra sobreajuste

Especifique um ou mais valores para cada hiperparâmetro a avaliar. A análise avalia os hiperparâmetros para encontrar a combinação com o melhor valor do critério de precisão. Se você não inserir valores para um hiperparâmetro, a avaliação usará o valor para esse hiperparâmetro do modelo nos resultados. Se a resposta for binária e o modelo original especificar a proporção de eventos e nenhum evento para amostrar, a avaliação sempre utiliza as proporções do modelo original.

Taxa de aprendizado

Insira até 10 valores. Os valores eligíveis variam de 0,0001 até 1.

Fração da subamostra

Insira até 10 valores. Os valores elegíveis são maiores que 0 e menores ou iguais a 1.

Fração da subamostra é desativado quando o modelo original especifica a proporção de eventos e nenhum evento para amostrar para uma resposta binária.

Parâmetro de complexidade individual da árvore

Escolha se avalia o Máximo de nós terminais ou o Profundidade máxima da árvore. Normalmente, qualquer escolha é uma maneira razoável de identificar um modelo útil e a seleção depende apenas da preferência individual.
Máximo de nós terminais
Insira até 3 valores. Os valores elegíveis variam de 2 a 2000. Normalmente, o valor padrão de 6 proporciona um bom equilíbrio entre a velocidade de cálculo e a investigação das interações entre as variáveis. Um valor de 2 elimina a investigação das interações.
Profundidade máxima da árvore
Insira até 3 valores. Insira valores elegíveis entre 2 e 1000 para representar a profundidade máxima de uma árvore. O nó raiz corresponde a uma profundidade de 1. Em muitas aplicações, profundidades de 4 a 6 dão modelos razoavelmente bons

Número de árvores

Insira um valor entre 1 e 5000, para especificar o número máximo de árvores a serem construídas. O valor padrão de 300 geralmente fornece resultados úteis para a avaliação dos valores de hiperparâmetro.

Se um ou mais modelos de interesse tiverem um número de árvores próximas ao número de árvores que você especifica, então considere se deve aumentar o número de árvores. Se o número de árvores estiver mais próximo do número máximo, um aumento no número de árvores é mais provável para melhorar o desempenho do modelo.

Avaliar combinações completas de parâmetros

Se você especificar valores para mais de um hiperparâmetro, então os modelos na tabela de avaliação dependem se você avalia as combinações completas dos hiperparâmetros.
  • Se você selecionar Avaliar combinações completas de parâmetros, então o algoritmo avaliará cada combinação dos hiperparâmetros. Essa opção geralmente leva mais tempo para ser calculada.
  • Caso contrário, o algoritmo avalia os hiperparâmetros nesta ordem:
    1. Taxa de aprendizado
    2. Fração da subamostra
    3. Parâmetro de complexidade individual da árvore
    Por exemplo, suponha que o algoritmo receba os seguintes hiperparâmetros:
    • Taxas de aprendizado: 0,001, 0,01, 0,1
    • Frações da subamostra: 0,4, 0,5, 0,7
    • Números máximos de nós terminais: 4, 6
    1. O algoritmo define a proporção de subamostras como 0,4 e o número máximo de nós terminais como 4. Em seguida, o algoritmo avalia as taxas de aprendizagem da menor para a maior: 0,001, 0,01, 0,1.
    2. Suponha que o algoritmo identifique 0,01 como a melhor taxa de aprendizado. Em seguida, o algoritmo definirá a taxa de aprendizagem como 0,01 e o número máximo de nós terminais como 4. Em seguida, o algoritmo avaliará as proporções de subamostras de 0,4, 0,5 e 0,7.
    3. Suponha que o algoritmo identifique 0,5 como a melhor proporção de subamostra. Em seguida, o algoritmo definirá a taxa de aprendizagem como 0,01, a proporção de subamostra como 0,5. Em seguida, o algoritmo avaliará os números máximos de nós de 4 e 6.
    4. Suponha que o algoritmo identifique 6 como o melhor número máximo de nós terminais. Em seguida, o Minitab produzirá a tabela de avaliação e os resultados para o modelo com taxa de aprendizagem = 0,01, proporção de subamostras de 0,5 e número máximo de nós terminais de 6.

    Nesse exemplo, a análise que não avalia o conjunto completo de combinações de parâmetros inclui 8 modelos na tabela de avaliação. Uma análise de todas as combinações de parâmetros tem 3 × 3 × 2 = 18 combinações e leva mais tempo para ser calculada.

Exibir resultados

Depois de especificar os valores a serem examinados, clique em Exibir resultados. Em um novo conjunto de resultados, o Minitab produz uma tabela que compara o critério de precisão para as combinações de hiperparâmetros e os resultados para o modelo com o melhor valor do critério de precisão.

O Minitab recria as mesmas tabelas e gráficos para o novo modelo em relação ao modelo original. As tabelas e gráficos para o novo modelo estão em um novo conjunto de resultados. O armazenamento é o mesmo da análise original. As colunas de armazenamento estão na mesma worksheet. Por exemplo, se a análise original armazenava os valores instalados em uma coluna intitulada “Fit”, a nova análise denomina uma coluna vazia “Fit_1” e armazena os valores ajustados.