Seleção da número ótimo de árvores em para Ajuste de modelo e Descubrir preditores-chave com Regressão TreeNet®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

A análise cria tantas árvores quanto você especificar, com uma pequena modificação no modelo a partir das informações em cada árvore. Se a análise incluir um método de validação, então a análise calcula o valor do critério de seleção do modelo para os dados de treinamento e os dados de teste para cada número de árvores. O valor ideal dos dados de teste determina o número de árvores no modelo ideal.

Métodos de validação do modelo

Critérios de otimização do modelo, como R2 máximo, tendem a ser otimistas quando você os calcula com os mesmos dados usados para ajustar um modelo. Os métodos de validação do modelo deixam uma parte dos dados fora do processo de ajuste do modelo e calculam a estatística que avalia o desempenho do modelo nos dados omitidos. As técnicas de validação do modelo fornecem uma estimativa melhor de como os modelos se comportam em novos dados. Dependendo da sua seleção da função de perda para a análise, o critério será o máximo R2 ou o menor Desvio absoluto médio (DAM). O Minitab oferece dois métodos de validação: validação cruzada de K dobras e validação com um conjunto de teste separado.

A árvore ótima com validação cruzada de K dobras

A validação cruzada de K dobras é o método padrão no Minitab quando os dados têm 2.000 casos ou menos. Como o processo se repete K vezes, a validação cruzada geralmente é mais lenta do que a validação com dados de teste.

Procedimento de validação cruzada de K dobras

Para concluir a validação cruzada de K dobras, o Minitab Statistical Software segue os seguintes passos:
  1. Divida os dados em K subconjuntos aleatórios em porções de tamanho mais igual possível. Os subconjuntos são chamados de dobras.
  2. Para dobra k, k = 1, ..., K, aumente a sequência de árvores usando o K–1 restante de dobras de dados. Calcule o valor do critério de seleção do modelo para cada árvore com os dados na k-ésima dobra.
  3. Repita a etapa 2 para todas as K dobras.
  4. Média dos valores do critério de seleção do modelo em K dobras para cada número de árvores. O número de árvores com o melhor valor médio torna o modelo ideal.

A árvore ótima com um conjunto de teste separado

Na validação com um conjunto de teste, uma parte dos dados é reservada para validação. Os demais dados são do conjunto de treinamento. Primeiro, o Minitab aumenta a sequência de árvores com o conjunto de treinamento. Em seguida, o Minitab calcula os valores do critério de seleção do modelo para cada número de árvores usando o conjunto de teste. O número de árvores com o melhor valor torna o modelo ideal.

A árvore ótima sem validação

Sem qualquer validação, o Minitab usa todo o conjunto de dados para ajustar o modelo. O modelo final contém o maior número de árvores.