Seleção da número ótimo de árvores em para Ajuste de modelo e Descubrir preditores-chave com Classificação TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

Escolha o método ou fórmula de sua preferência.

A análise cria tantas árvores quanto você especificar, com uma pequena modificação no modelo a partir das informações em cada árvore. Se a análise incluir um método de validação, então a análise calcula o valor do critério de seleção do modelo para os dados de treinamento e os dados de teste para cada número de árvores. O valor ideal do conjunto de teste determina o número de árvores no modelo ideal.

Métodos de validação do modelo

Critérios de otimização do modelo, como log-verossimilhança máximo, tendem a ser otimistas quando você os calcula com os mesmos dados usados para ajustar um modelo. Os métodos de validação do modelo deixam uma parte dos dados fora do processo de ajuste do modelo e calculam a estatística que avalia o desempenho do modelo nos dados omitidos. As técnicas de validação do modelo fornecem uma estimativa melhor de como os modelos se comportam em novos dados. Dependendo da sua seleção para a análise, o critério é a o log-verossimilhança máximo, a área máxima sob a curva ROC ou a taxa mínima de classificação errada. O Minitab oferece dois métodos de validação: validação cruzada de K dobras e validação com um conjunto de teste separado.

A árvore ótima com validação cruzada de K dobras

A validação cruzada de K dobras é o método padrão no Minitab quando os dados têm 2.000 casos ou menos. Como o processo se repete K vezes, a validação cruzada geralmente é mais lenta do que a validação com um conjunto de teste.

Procedimento de validação cruzada de K dobras

Para concluir a validação cruzada de K dobras, o Minitab Statistical Software segue os seguintes passos:
  1. Divida os dados em K subconjuntos aleatórios em porções de tamanho mais igual possível. Os subconjuntos são chamados de dobras.
  2. Para dobra k, k = 1, ..., K, aumente a sequência de árvores usando o K–1 restante de dobras de dados. Calcule o valor do critério de seleção do modelo para cada árvore com os dados na k-ésima dobra.
  3. Repita a etapa 2 para todas as K dobras.
  4. Média dos valores do critério de seleção do modelo em K dobras para cada número de árvores. O número de árvores com o melhor valor médio torna o modelo ideal.

A árvore ótima com um conjunto de teste separado

Na validação com um conjunto de teste, uma parte dos dados é reservada para validação. Os demais dados são o conjunto de treinamento. Primeiro, o Minitab aumenta a sequência de árvores com o conjunto de treinamento. Em seguida, minitab calcula os valores do critério de seleção do modelo para cada número de árvores usando o conjunto de teste. O número de árvores com o melhor valor torna o modelo ideal.

A árvore ótima sem validação

Sem qualquer validação, o Minitab usa todo o conjunto de dados para ajustar o modelo. O modelo final contém o maior número de árvores.