Regressão stepwise é uma ferramenta automática usada nos estágios exploratórios da construção de modelos para identificar um subconjunto útil de preditores. O processo adiciona sistematicamente a variável mais significativa ou remove a variável menos significativa durante cada etapa.
Por exemplo, uma empresa de consultoria do mercado de habitação coleta dados sobre as vendas de casas no ano anterior com o objetivo de prever preços de venda futuros. Com mais de 100 variáveis preditoras, encontrar um modelo pode ser uma tarefa demorada. O recurso de regressão stepwise do Minitab identifica automaticamente uma sequência de modelos a serem considerados. Estatísticas como AICc, BIC, R2, R2 ajustado, R2 predito, S e Cp de Mallows pode ajudar na comparação dos modelos. O Minitab exobe os resultados completos do modelo que for melhor, de acordo com o procedimento stepwise usado.
Tenha cuidado ao usar procedimentos de seleção de variáveis como melhores subconjuntos e regressão stepwise. Procedimentos automáticos não consideram o conhecimento especializado que o analista possa ter sobre os dados. O procedimento não pode considerar a importância prática de qualquer um dos preditores.
Um problema relacionado à incapacidade do procedimento de considerar conhecimentos especiais é que quando dois preditores estão altamente correlacionados, o procedimento pode selecionar apenas um dos dois preditores, embora ambos possam ser importantes. Por exemplo, o procedimento pode remover um preditor que é barato e fácil de medir em favor de um preditor correlacionado que é difícil e caro de medir. O analista teria que usar seu conhecimento dos dados para fazer julgamentos sobre critérios que o procedimento não pode considerar.
Outro problema com os procedimentos stepwise é que os diferentes modelos podem otimizar diferentes critérios. Por exemplo, o modelo com o maior valor R2 ajustado não será necessariamente o modelo com o maior valor de teste R2. O analista tem que considerar os diferentes critérios para selecionar um modelo final.
Para assegurar que seu modelo não apenas se ajusta a um conjunto de dados específico, você deve verificar o modelo encontrado pelo procedimento de seleção em um novo conjunto de dados. Também é possível usar o conjunto de dados original, dividi-lo aleatoriamente em duas partes, usar uma parte para selecionar um modelo e, depois, verificar o ajuste na segunda parte. Esse procedimento ajuda a garantir que o modelo selecionado seja aplicável a outros conjuntos de dados. Vá para a seção sobre procedimentos stepwise com validação automática para aprender sobre comandos que podem particionar seus dados automaticamente e calcular estatísticas de validação.
Todas as análises que incluem procedimentos stepwise automáticos no Minitab incluem os seguintes procedimentos. Os seguintes métodos permitem avaliar rapidamente um alto número de modelos diferentes em termos de estatísticas de resumo de modelo sumário para os dados que você usa para construir o modelo.
O procedimento stepwise que o Minitab pode executar automaticamente com um conjunto de dados de teste é chamado de seleção antecipada com validação com um conjunto de dados de teste. Neste procedimento, o modelo inicial está vazio ou inclui termos de modelo que você seleciona especificamente. Em seguida, a Minitab adiciona o próximo termo potencial com o menor valor p em cada etapa. Minitab calcula o teste R2 para o modelo em cada etapa como o valor de R2 para o modelo no conjunto de dados de teste. Os resultados do modelo que a Minitab apresenta são para o modelo com o valor máximo do teste R2.
Para Ajuste do modelo de regressão, você pode escolher uma segunda técnica de validação para executar com a seleção stepwise chamada seleção para a frente com validação cruzada k-fold. Na validação cruzada do k-fold, o Minitab divide o conjunto de dados em subconjuntos k. Os subconjuntos são chamados de dobras. Na maioria das vezes, a validação usa 10 dobras, mas outros números são possíveis. As dobras têm o mesmo número de observações possível. Minitab executa a seleção de frente k vezes. Para cada seleção para frente, as dobras k-1 são o conjunto de dados de treinamento e a última dobra é o conjunto de dados do teste. Como em outros procedimentos de seleção para a frente, o modelo inicial está vazio ou inclui termos de modelo que você seleciona especificamente. Em seguida, a Minitab adiciona o próximo termo potencial com o menor valor p em cada etapa. Para cada etapa, a Minitab calcula o valor de Stepwise R2 do brando k, combinando as informações dos diferentes procedimentos de seleção stepwise.
Um modelo hierárquico é um modelo onde, para cada termo no modelo, todos os termos de ordem inferior contidos nele também estão no modelo. Por exemplo, suponha que existe um modelo com quatro fatores: A, B, C e D. Se o termo A * B * C estiver no modelo, os termos A, B, C, A*B, A*C e B*C também devem estar no modelo, embora termos com D não precisem estar no modelo.
Os termos que entram ou saem de um modelo em uma etapa dependem das especificações para hierarquia. Por padrão, o Minitab Statistical Software requer um modelo hierárquico em cada etapa, requer hierarquia para todos os termos e permite que apenas um termo insira o modelo em cada etapa. Essas configurações limitam os termos que o Minitab considera em cada etapa. Por exemplo, uma interação bidirecional não pode entrar no modelo a menos que ambos os termos de ordem inferior na interação já estejam no modelo. Você pode ajustar essas configurações clicando Hierarquia quando você seleciona um método stepwise.
Regressão stepwise é uma ferramenta automática usada nos estágios exploratórios da construção de modelos para identificar um subconjunto útil de preditores. O procedimento exibe os resultados do resumo do modelo para o número de modelos que você solicita para cada tamanho: modelos com um preditor, modelos com dois preditores, e assim por diante. Os modelos que exibem têm os maiores valores de R2 entre os possíveis modelos desse tamanho. Para usar a regressão dos melhores subconjuntos em Minitab, escolha .
Como procedimento de seleção automática, a regressão dos melhores subconjuntos compartilha muitos problemas com a regressão stepwise. O procedimento não pode utilizar conhecimentoespecializado que um analista possui, nem há garantia de que critérios diferentes identifiquem o mesmo modelo. Correlações entre os preditores podem dificultar a identificação dos melhores modelos. A validação do modelo com novos dados aumenta a confiança que você pode ter no desempenho do modelo.
Melhores subconjuntos é uma análise no Minitab Statistical Software. A regressão stepwise é uma opção em várias análises. Ambas as técnicas automatizadas de seleção de modelos fornecem informações sobre o ajuste de vários modelos diferentes. A partir dos diferentes modelos, você pode identificar quaisquer modelos que mereçam uma exploração adicional.
Característica | Regressão dos melhores subconjuntos | Regressão stepwise |
---|---|---|
Modelos considerados | Todos os modelos possíveis para os preditores. | Uma seqüência de modelos escolhidos pela significância estatística dos termos. |
Número de preditores a considerar | Até 31 preditores gratuitos, além de todos os preditores que você precisar em cada modelo. | Sem limite definido. |
Status dos preditores | Ocultar colunas na worksheet | Colunas de texto ou numéricas mais termos de interação e outros termos de ordem superior. |
Tipos de variáveis de resposta | Coluna numérica. | Diferentes análises no Minitab podem analisar diferentes tipos de variáveis de resposta. Para regressão stepwise, você pode escolher uma análise para uma variável de resposta contínua, uma variável de resposta binária ou uma variável de resposta de Poisson. |
Resultados | Os resultados incluem estatísticas de resumo de modelos que exploram o ajuste dos dados. Para visualizar os resultados de regressão total, como parcelas residuais, explore o modelo escolhido em uma análise como Ajuste do modelo de regressão. | A análise apresenta resultados de regressão total para o modelo ideal de acordo com um critério que você seleciona. Você também pode optar por olhar as estatísticas de resumo do modelo para cada etapa do procedimento. |