Usando a regressão de melhores subconjuntos e regressão stepwise

O que é regressão stepwise?

Regressão stepwise é uma ferramenta automática usada nos estágios exploratórios da construção de modelos para identificar um subconjunto útil de preditores. O processo adiciona sistematicamente a variável mais significativa ou remove a variável menos significativa durante cada etapa.

Por exemplo, uma empresa de consultoria do mercado de habitação coleta dados sobre as vendas de casas no ano anterior com o objetivo de prever preços de venda futuros. Com mais de 100 variáveis preditoras, encontrar um modelo pode ser uma tarefa demorada. O recurso de regressão stepwise do Minitab identifica automaticamente uma sequência de modelos a serem considerados. Estatísticas como AICc, BIC, R2, R2 ajustado, R2 predito, S e Cp de Mallows pode ajudar na comparação dos modelos. O Minitab exobe os resultados completos do modelo que for melhor, de acordo com o procedimento stepwise usado.

As análises a seguir no Minitab podem executar automaticamente a seleção stepwise para que você possa avaliar estatísticas de resumo de modelo para muitos modelos potenciais em um conjunto de saída.
  • Estat > Regressão > Regressão > Ajuste do modelo de regressão
  • Estat > Regressão > Regressão logística binária > Ajustar modelo logístico binário
  • Estat > Regressão > Regressão de Poisson > Ajustar modelo de Poisson
  • Estat > ANOVA > Modelo linear generalizado > Ajustar modelo linear generalizado
  • Estat > DOE (Planejamento de Experimento) > Filtragem > Analisar filtragem de experimentos
  • Estat > DOE (Planejamento de Experimento) > Filtragem > Análise de resposta binária
  • Estat > DOE (Planejamento de Experimento) > Fatorial > Análise de experimento fatorial
  • Estat > DOE (Planejamento de Experimento) > Fatorial > Análise de resposta binária
  • Estat > DOE (Planejamento de Experimento) > Superfície de resposta > Análise de experimento de superfície de resposta
  • Estat > DOE (Planejamento de Experimento) > Superfície de resposta > Análise de resposta binária

Problemas com a regressão stepwise

Tenha cuidado ao usar procedimentos de seleção de variáveis como melhores subconjuntos e regressão stepwise. Procedimentos automáticos não consideram o conhecimento especializado que o analista possa ter sobre os dados. O procedimento não pode considerar a importância prática de qualquer um dos preditores.

Um problema relacionado à incapacidade do procedimento de considerar conhecimentos especiais é que quando dois preditores estão altamente correlacionados, o procedimento pode selecionar apenas um dos dois preditores, embora ambos possam ser importantes. Por exemplo, o procedimento pode remover um preditor que é barato e fácil de medir em favor de um preditor correlacionado que é difícil e caro de medir. O analista teria que usar seu conhecimento dos dados para fazer julgamentos sobre critérios que o procedimento não pode considerar.

Outro problema com os procedimentos stepwise é que os diferentes modelos podem otimizar diferentes critérios. Por exemplo, o modelo com o maior valor R2 ajustado não será necessariamente o modelo com o maior valor de teste R2. O analista tem que considerar os diferentes critérios para selecionar um modelo final.

Além disso, quando você ajusta um modelo aos dados, a qualidade do ajuste vem de duas fontes básicas:
  • A estrutura subjacente dos dados (uma estrutura que se aplica a outros conjuntos de dados coletados da mesma maneira)
  • As peculiaridades do conjunto de dados que você analisa.

Para assegurar que seu modelo não apenas se ajusta a um conjunto de dados específico, você deve verificar o modelo encontrado pelo procedimento de seleção em um novo conjunto de dados. Também é possível usar o conjunto de dados original, dividi-lo aleatoriamente em duas partes, usar uma parte para selecionar um modelo e, depois, verificar o ajuste na segunda parte. Esse procedimento ajuda a garantir que o modelo selecionado seja aplicável a outros conjuntos de dados. Vá para a seção sobre procedimentos stepwise com validação automática para aprender sobre comandos que podem particionar seus dados automaticamente e calcular estatísticas de validação.

Procedimentos stepwise

Todas as análises que incluem procedimentos stepwise automáticos no Minitab incluem os seguintes procedimentos. Os seguintes métodos permitem avaliar rapidamente um alto número de modelos diferentes em termos de estatísticas de resumo de modelo sumário para os dados que você usa para construir o modelo.

  • A regressão stepwise padrão adiciona ou remove um preditor para cada passo. O Minitab para quando todas as variáveis que não estão no modelo têm valores-p que são maiores que o valor de alfa-para-inserir especificado e quando todas as variáveis no modelo têm valores-p que são menores ou iguais ao valor de alfa-para-remover especificado.
  • O procedimento de critérios de informações forward adiciona o termo com o menor valor-p ao modelo em cada etapa. Os termos adicionais podem entrar no modelo em 1 passo se as configurações para a análise permitirem a consideração de termos não hierárquicos, mas exigirem que cada modelo seja hierárquico. O Minitab calcula os critérios de informação para cada passo. Na maioria dos casos, o procedimento continua até que ocorra uma das seguintes condições:
    • O procedimento não encontra um novo valor mínimo do critério para 8 passos consecutivos.
    • O procedimento ajusta o modelo completo.
    • O procedimento ajusta um modelo que deixa 1 grau de liberdade para erro.
    Se você especificar configurações para o procedimento que requerem um modelo hierárquico em cada passo e permitir a entrada de apenas um termo de cada vez, o procedimento continua até que ele ajuste modelo completo ou ajuste um modelo que deixa 1 grau de liberdade para erro. O Minitab exibe os resultados da análise do modelo com o valor mínimo do critério de informações selecionado, seja ele AICc ou BIC.
  • A seleção antecipada começa com um modelo vazio ou um modelo com termos especificados. Em seguida, o Minitab adiciona a maioria dos termos significativos para cada etapa. O Minitab para quando todas as variáveis que não estão no modelo têm os valores-p maiores que o valor de alfa-para-inserir especificado.
  • A eliminação regressiva começa com todos os preditores no modelo e o Minitab remove a variável menos significativa para cada etapa. O Minitab para quando todas as variáveis que não estão no modelo têm os valores-p que são menores ou iguais ao valor de alfa-para-remover especificado.

Procedimentos de regressão stepwise com validação automática

Para os seguintes comandos, a análise no Minitab pode incluir uma técnica de validação automática, bem como um procedimento stepwise. A validação automática economiza tempo para um analista que faria a validação do modelo para si mesmo após um procedimento stepwise. Os seguintes comandos podem dividir seus dados em um conjunto de dados de treinamento e um conjunto de dados de teste durante o procedimento stepwise:

O procedimento stepwise que o Minitab pode executar automaticamente com um conjunto de dados de teste é chamado de seleção antecipada com validação com um conjunto de dados de teste. Neste procedimento, o modelo inicial está vazio ou inclui termos de modelo que você seleciona especificamente. Em seguida, a Minitab adiciona o próximo termo potencial com o menor valor p em cada etapa. Minitab calcula o teste R2 para o modelo em cada etapa como o valor de R2 para o modelo no conjunto de dados de teste. Os resultados do modelo que a Minitab apresenta são para o modelo com o valor máximo do teste R2.

Para Ajuste do modelo de regressão, você pode escolher uma segunda técnica de validação para executar com a seleção stepwise chamada seleção para a frente com validação cruzada k-fold. Na validação cruzada do k-fold, o Minitab divide o conjunto de dados em subconjuntos k. Os subconjuntos são chamados de dobras. Na maioria das vezes, a validação usa 10 dobras, mas outros números são possíveis. As dobras têm o mesmo número de observações possível. Minitab executa a seleção de frente k vezes. Para cada seleção para frente, as dobras k-1 são o conjunto de dados de treinamento e a última dobra é o conjunto de dados do teste. Como em outros procedimentos de seleção para a frente, o modelo inicial está vazio ou inclui termos de modelo que você seleciona especificamente. Em seguida, a Minitab adiciona o próximo termo potencial com o menor valor p em cada etapa. Para cada etapa, a Minitab calcula o valor de Stepwise R2 do brando k, combinando as informações dos diferentes procedimentos de seleção stepwise.

Hierarquia

Um modelo hierárquico é um modelo onde, para cada termo no modelo, todos os termos de ordem inferior contidos nele também estão no modelo. Por exemplo, suponha que existe um modelo com quatro fatores: A, B, C e D. Se o termo A * B * C estiver no modelo, os termos A, B, C, A*B, A*C e B*C também devem estar no modelo, embora termos com D não precisem estar no modelo.

Os termos que entram ou saem de um modelo em uma etapa dependem das especificações para hierarquia. Por padrão, o Minitab Statistical Software requer um modelo hierárquico em cada etapa, requer hierarquia para todos os termos e permite que apenas um termo insira o modelo em cada etapa. Essas configurações limitam os termos que o Minitab considera em cada etapa. Por exemplo, uma interação bidirecional não pode entrar no modelo a menos que ambos os termos de ordem inferior na interação já estejam no modelo. Você pode ajustar essas configurações clicando Hierarquia quando você seleciona um método stepwise.

O que é regressão de melhores subconjuntos?

Regressão stepwise é uma ferramenta automática usada nos estágios exploratórios da construção de modelos para identificar um subconjunto útil de preditores. O procedimento exibe os resultados do resumo do modelo para o número de modelos que você solicita para cada tamanho: modelos com um preditor, modelos com dois preditores, e assim por diante. Os modelos que exibem têm os maiores valores de R2 entre os possíveis modelos desse tamanho. Para usar a regressão dos melhores subconjuntos em Minitab, escolha Estat > Regressão > Regressão > Melhores subconjuntos.

Como procedimento de seleção automática, a regressão dos melhores subconjuntos compartilha muitos problemas com a regressão stepwise. O procedimento não pode utilizar conhecimentoespecializado que um analista possui, nem há garantia de que critérios diferentes identifiquem o mesmo modelo. Correlações entre os preditores podem dificultar a identificação dos melhores modelos. A validação do modelo com novos dados aumenta a confiança que você pode ter no desempenho do modelo.

Comparação entre regressão de melhores subconjuntos e regressão stepwise

Melhores subconjuntos é uma análise no Minitab Statistical Software. A regressão stepwise é uma opção em várias análises. Ambas as técnicas automatizadas de seleção de modelos fornecem informações sobre o ajuste de vários modelos diferentes. A partir dos diferentes modelos, você pode identificar quaisquer modelos que mereçam uma exploração adicional.

As diferenças entre as técnicas em Minitab podem ajudá-lo a decidir se usa uma técnica sobre a outra ou usar ambas as técnicas. A seguir, alguns pontos gerais a considerar:
Característica Regressão dos melhores subconjuntos Regressão stepwise
Modelos considerados Todos os modelos possíveis para os preditores. Uma seqüência de modelos escolhidos pela significância estatística dos termos.
Número de preditores a considerar Até 31 preditores gratuitos, além de todos os preditores que você precisar em cada modelo. Sem limite definido.
Status dos preditores Ocultar colunas na worksheet Colunas de texto ou numéricas mais termos de interação e outros termos de ordem superior.
Tipos de variáveis de resposta Coluna numérica. Diferentes análises no Minitab podem analisar diferentes tipos de variáveis de resposta. Para regressão stepwise, você pode escolher uma análise para uma variável de resposta contínua, uma variável de resposta binária ou uma variável de resposta de Poisson.
Resultados Os resultados incluem estatísticas de resumo de modelos que exploram o ajuste dos dados. Para visualizar os resultados de regressão total, como parcelas residuais, explore o modelo escolhido em uma análise como Ajuste do modelo de regressão. A análise apresenta resultados de regressão total para o modelo ideal de acordo com um critério que você seleciona. Você também pode optar por olhar as estatísticas de resumo do modelo para cada etapa do procedimento.