Usando regressão stepwise e regressão de melhores subconjuntos

O que é regressão stepwise?

Regressão stepwise é uma ferramenta automática usada nos estágios exploratórios da construção de modelos para identificar um subconjunto útil de preditores. O processo adiciona sistematicamente a variável mais significativa ou remove a variável menos significativa durante cada etapa.

Por exemplo, uma empresa de consultoria do mercado de habitação coleta dados sobre as vendas de casas no ano anterior com o objetivo de prever preços de venda futuros. Com mais de 100 variáveis preditoras, encontrar um modelo pode ser uma tarefa demorada. O recurso de regressão stepwise do Minitab identifica automaticamente uma sequência de modelos a serem considerados. Estatísticas como AICc, BIC, teste R2, R2, R2 ajustado, R2 previsto, S e Cp de Mallows ajudam você a comparar modelos. O Minitab exobe os resultados completos do modelo que for melhor, de acordo com o procedimento stepwise usado.

As análises a seguir no Minitab podem realizar automaticamente a seleção passo a passo para que você possa avaliar as estatísticas de resumo do modelo para muitos modelos potenciais em um conjunto de saída.
  • Módulo de análise preditiva > Regressão Linear
  • Estat > Regressão > Regressão > Ajuste do modelo de regressão
  • Módulo de análise preditiva > Regressão Logística Binária
  • Estat > Regressão > Regressão logística binária > Ajustar modelo logístico binário
  • Estat > Regressão > Regressão de Poisson > Ajustar modelo de Poisson
  • Estat > ANOVA > Modelo linear generalizado > Ajustar modelo linear generalizado
  • Estat > DOE (Planejamento de Experimento) > Filtragem > Analisar filtragem de experimentos
  • Estat > DOE (Planejamento de Experimento) > Filtragem > Análise de resposta binária
  • Estat > DOE (Planejamento de Experimento) > Fatorial > Análise de experimento fatorial
  • Estat > DOE (Planejamento de Experimento) > Fatorial > Análise de resposta binária
  • Estat > DOE (Planejamento de Experimento) > Superfície de resposta > Análise de experimento de superfície de resposta
  • Estat > DOE (Planejamento de Experimento) > Superfície de resposta > Análise de resposta binária

Problemas com a regressão stepwise

Tenha cuidado ao usar procedimentos de seleção de variáveis como melhores subconjuntos e regressão stepwise. Um problema é que esses procedimentos não podem considerar o conhecimento especial que o analista possa ter sobre os dados. O procedimento não pode considerar a importância prática de nenhum dos preditores.

Um problema relacionado à incapacidade do procedimento de considerar conhecimento especial é que, quando dois preditores estão altamente correlacionados, o procedimento pode selecionar apenas um dos dois preditores, embora qualquer um deles possa ser importante. Por exemplo, o procedimento pode remover um preditor barato e fácil de medir em favor de um preditor correlacionado que é difícil e caro de medir. O analista teria que usar seu conhecimento dos dados para fazer julgamentos sobre critérios que o procedimento não pode considerar.

Outro problema com os procedimentos passo a passo é que os diferentes modelos podem otimizar diferentes critérios. Por exemplo, o modelo com o maior valor de R2 ajustado não será necessariamente o modelo com o maior valor de teste R2 . O analista deve considerar os diferentes critérios para selecionar um modelo final.

Além disso, quando você ajusta um modelo aos dados, a qualidade do ajuste vem de duas fontes básicas:
  • A estrutura subjacente dos dados (uma estrutura que se aplica a outros conjuntos de dados coletados da mesma maneira).
  • As peculiaridades do conjunto de dados que você analisa.

Para assegurar que seu modelo não apenas se ajusta a um conjunto de dados específico, você deve verificar o modelo encontrado pelo procedimento de seleção em um novo conjunto de dados. Também é possível usar o conjunto de dados original, dividi-lo aleatoriamente em duas partes, usar uma parte para selecionar um modelo e, depois, verificar o ajuste na segunda parte. Esse procedimento ajuda a garantir que o modelo selecionado seja aplicável a outros conjuntos de dados. Vá para a seção sobre procedimentos passo a passo com validação automática para saber mais sobre comandos que podem particionar seus dados automaticamente e calcular estatísticas de validação.

Procedimentos por etapas

Todas as análises que incluem procedimentos stepwise automáticos no Minitab incluem os seguintes procedimentos. Os métodos a seguir permitem avaliar rapidamente um grande número de modelos diferentes em termos de estatísticas de resumo de modelo para os dados que você usa para criar o modelo.

  • A regressão passo a passo padrão adiciona ou remove um preditor para cada etapa. O Minitab para quando todas as variáveis que não estão no modelo têm valores-p que são maiores que o valor de alfa-para-inserir especificado e quando todas as variáveis no modelo têm valores-p que são menores ou iguais ao valor de alfa-para-remover especificado.
  • O procedimento de critérios de informações forward adiciona o termo com o menor valor-p ao modelo em cada etapa. Os termos adicionais podem entrar no modelo em 1 passo se as configurações para a análise permitirem a consideração de termos não hierárquicos, mas exigirem que cada modelo seja hierárquico. O Minitab calcula os critérios de informação para cada passo. Na maioria dos casos, o procedimento continua até que ocorra uma das seguintes condições:
    • O procedimento não encontra um novo valor mínimo do critério para 8 passos consecutivos.
    • O procedimento ajusta o modelo completo.
    • O procedimento ajusta um modelo que deixa 1 grau de liberdade para erro.
    Se você especificar configurações para o procedimento que requerem um modelo hierárquico em cada passo e permitir a entrada de apenas um termo de cada vez, o procedimento continua até que ele ajuste modelo completo ou ajuste um modelo que deixa 1 grau de liberdade para erro. O Minitab exibe os resultados da análise do modelo com o valor mínimo do critério de informação selecionado, seja AICc ou BIC.
  • A seleção direta começa com um modelo vazio ou um modelo com termos especificados. Em seguida, o Minitab adiciona a maioria dos termos significativos para cada etapa. O Minitab para quando todas as variáveis que não estão no modelo têm os valores-p maiores que o valor de alfa-para-inserir especificado.
  • A eliminação regressiva começa com todos os preditores no modelo e o Minitab remove a variável menos significativa para cada etapa. O Minitab para quando todas as variáveis que não estão no modelo têm os valores-p que são menores ou iguais ao valor de alfa-para-remover especificado.

Procedimentos de regressão stepwise com validação automática

Para os comandos a seguir, a análise no Minitab pode incluir uma técnica de validação automática, bem como um procedimento passo a passo. A validação automática economiza tempo para um analista que faria a validação do modelo por conta própria após um procedimento passo a passo. Os comandos a seguir podem dividir seus dados em um conjunto de dados de treinamento e um conjunto de dados de teste durante o procedimento passo a passo:

O procedimento passo a passo que o Minitab pode executar automaticamente com um conjunto de dados de teste é chamado de seleção direta com validação com um conjunto de dados de teste. Neste procedimento, o modelo inicial está vazio ou inclui termos de modelo que você seleciona especificamente. Em seguida, o Minitab adiciona o próximo termo potencial com o menor valor-p em cada etapa. O Minitab calcula o teste R2 para o modelo em cada etapa como o valor R2 para o modelo no conjunto de dados de teste. Os resultados do modelo que o Minitab apresenta são para o modelo com o valor máximo do valor de teste R2 .

Para Ajuste do modelo de regressão, você pode escolher uma segunda técnica de validação para executar com a seleção passo a passo chamada seleção direta com validação cruzada de k dobras. Na validação cruzada de k dobras, o Minitab divide o conjunto de dados em k subconjuntos. Esses subconjuntos são chamados de dobras. Na maioria das vezes, a validação usa 10 dobras, mas outros números são possíveis. As dobras têm o mesmo número possível de observações. O Minitab executa a seleção direta k vezes. Para cada seleção para frente, k–1 dobras são o conjunto de dados de treinamento e a última dobra é o conjunto de dados de teste. Como em outros procedimentos de seleção direta, o modelo inicial está vazio ou inclui termos de modelo que você seleciona especificamente. Em seguida, o Minitab adiciona o próximo termo potencial com o menor valor-p em cada etapa. Para cada etapa, o Minitab calcula o valor de R2 stepwise de k dobras combinando as informações dos diferentes procedimentos de seleção stepwise.

Hierarquia

Um modelo hierárquico é um modelo onde, para cada termo no modelo, todos os termos de ordem inferior contidos nele também estão no modelo. Por exemplo, suponha que haja um modelo com quatro fatores: A, B, C e D. Se o termo A * B * C estiver no modelo, os termos A, B, C, A*B, A*C e B*C também devem estar no modelo, embora quaisquer termos com D não precisem estar no modelo.

Os termos que entram ou saem de um modelo em uma etapa dependem das especificações da hierarquia. Por padrão, o Minitab Statistical Software requer um modelo hierárquico em cada etapa, requer hierarquia para todos os termos e permite que apenas um termo entre no modelo em cada etapa. Essas configurações limitam os termos que o Minitab considera em cada etapa. Por exemplo, uma interação bidirecional não pode entrar no modelo, a menos que ambos os termos de ordem inferior na interação já estejam no modelo. Você pode ajustar essas configurações clicando ao Hierarquia selecionar um método passo a passo.

O que é regressão de melhores subconjuntos?

A regressão de melhores subconjuntos é uma ferramenta automatizada usada nos estágios exploratórios da construção do modelo para identificar um subconjunto útil de preditores. O procedimento exibe os resultados do resumo do modelo para o número de modelos solicitados para cada tamanho: modelos com um preditor, modelos com dois preditores e assim por diante. Os modelos exibidos têm os valores mais altos de R2 entre os modelos possíveis desse tamanho. Para usar a regressão de melhores subconjuntos no Minitab, escolha Estat > Regressão > Regressão > Melhores subconjuntos.

Como um procedimento de seleção automática, a regressão de melhores subconjuntos compartilha muitos problemas com a regressão stepwise. O procedimento não pode usar o conhecimento especializado que um analista possui, nem há qualquer garantia de que critérios diferentes identifiquem o mesmo modelo. As correlações entre os preditores podem dificultar a identificação dos melhores modelos. A validação do modelo com novos dados aumenta a confiança que você pode ter no desempenho do modelo.

Comparação entre regressão de melhores subconjuntos e regressão stepwise

Melhores subconjuntos é uma análise no Minitab Statistical Software. A regressão stepwise é uma opção em várias análises. Ambas as técnicas de seleção automatizada de modelos fornecem informações sobre o ajuste de vários modelos diferentes. A partir dos diferentes modelos, você pode identificar quaisquer modelos que mereçam uma exploração mais aprofundada.

As diferenças entre as técnicas no Minitab podem ajudá-lo a decidir se deve usar uma técnica em vez da outra ou usar ambas. A seguir estão alguns pontos gerais a serem considerados:
Característica Regressão dos melhores subconjuntos Regressão stepwise
Modelos considerados Todos os modelos possíveis para os preditores. Uma sequência de modelos escolhidos pela significância estatística dos termos.
Número de preditores a serem considerados Até 31 preditores gratuitos, além de quaisquer preditores necessários em cada modelo. Sem limite definido.
Tipos de preditores Colunas numéricas na planilha. Colunas de texto ou numéricas, além de termos de interação e outros termos de ordem superior.
Tipos de variáveis de resposta Uma coluna numérica. Diferentes análises no Minitab podem analisar diferentes tipos de variáveis de resposta. Para regressão stepwise, você pode escolher uma análise para uma variável de resposta contínua, uma variável de resposta binária ou uma variável de resposta de Poisson.
Resultados Os resultados incluem estatísticas resumidas do modelo que exploram o ajuste dos dados. Para exibir os resultados completos da regressão, como gráficos de resíduos, explore o modelo escolhido em uma análise como Ajuste do modelo de regressão. A análise exibe os resultados completos da regressão para o modelo ideal de acordo com um critério selecionado. Você também pode optar por examinar as estatísticas de resumo do modelo para cada etapa do procedimento.