Seleção do número ideal de funções de base para Regressão MARS^®

Observação

Este comando está disponível com o Módulo de análise preditiva. Clique aqui saber mais sobre como ativar o módulo.

A análise cria tantas funções de base quanto você especificar, com uma pequena modificação no modelo a partir das informações em cada função. Se a análise incluir um método de validação, a análise calculará o valor do critério de seleção do modelo para os dados de treinamento e os dados de teste para cada número de funções de base. O valor ideal dos dados de teste determina o número de funções no modelo ideal.

Métodos de validação do modelo

Critérios de otimização do modelo, como R² máximo, tendem a ser otimistas quando você os calcula com os mesmos dados usados para ajustar um modelo. Os métodos de validação do modelo deixam uma parte dos dados fora do processo de ajuste do modelo e calculam a estatística que avalia o desempenho do modelo nos dados omitidos. As técnicas de validação do modelo fornecem uma estimativa melhor de como os modelos se comportam em novos dados. Dependendo da sua seleção da função de perda para a análise, o critério será o máximo R² ou o menor Desvio absoluto médio (DAM). O Minitab oferece dois métodos de validação: validação cruzada de K duplicações e validação com um conjunto de teste separado.

O modelo ideal com validação cruzada K-fold

A validação cruzada de K dobras é o método padrão no Minitab quando os dados têm 2000 casos ou menos. Como o processo se repete K vezes, a validação cruzada geralmente é mais lenta do que a validação com dados de teste.

Procedimento de validação cruzada de K duplicações

Para concluir a validação cruzada do K-fold, o Minitab Statistical Software usa as etapas a seguir.

Divida os dados em K subconjuntos aleatórios em porções de tamanho mais igual possível. Os subconjuntos são chamados de duplicações.
Para dobra k, k= 1, ..., K,adicione funções de base usando as restantes dobras K–1 de dados. Calcule o valor do critério de seleção do modelo para o modelo com os dados na ^k-ésima dobra.
Repita a etapa 2 para todas as K duplicações.
Média dos valores do critério de seleção do modelo em K dobras para cada número de funções. O número de funções com o melhor valor médio faz o modelo ideal.

O modelo ideal com um conjunto de testes separado

Na validação com um conjunto de teste, uma parte dos dados é reservada para validação. Os demais dados são do conjunto de treinamento. Primeiro, o Minitab adiciona funções de base com o conjunto de treinamento. Em seguida, o Minitab calcula os valores do critério de seleção de modelo para cada número de funções usando o conjunto de testes. O número de funções com o melhor valor faz o modelo ideal.

O modelo ideal sem validação

Sem qualquer validação, o Minitab usa todo o conjunto de dados para ajustar o modelo. O modelo final geralmente contém o maior número de funções de base.