Comparação entre regressão de melhores subconjuntos e regressão stepwise

A regressão de melhores subconjuntos fornece informações sobre o ajuste de vários modelos diferentes, permitindo selecionar um modelo com base em nove estatísticas diferentes. (Na tabela simples, o Minitab exibe cinco estatísticas). A regressão stepwise gera um único modelo baseado em uma única estatística. Como diferentes critérios de seleção são usados em cada modelo, é possível que a regressão de melhores subconjuntos e a regressão stepwise gerem modelos diferentes. Orientações gerais para o método a ser usado são apresentadas abaixo:
  • Para conjuntos de dados com um número pequeno de preditores, a regressão de melhores subconjuntos é melhor que a regressão stepwise porque fornece informações sobre mais modelos.
  • Os melhores subconjuntos permitem que você tenha 31 preditores livres, portanto, para conjuntos de dados com um grande número de preditores, a regressão stepwise é melhor do que a regressão de melhores subconjuntos. Ao usar a regressão stepwise em um conjunto de dados com um grande número de preditores, escolha grandes níveis alfa para inserir e alfa para remover (0,25 a 0,50). Valores altos permitem saber mais sobre os efeitos de cada preditor inserido na resposta e sobre os preditores que já estão no modelo.

Verificando o modelo

Tenha cuidado ao usar procedimentos de seleção de variáveis como melhores subconjuntos e regressão stepwise. Esses procedimentos são automáticos e, portanto, não consideram a importância prática de quaisquer dos preditores. Além disso, quando você ajusta um modelo aos dados, a qualidade do ajuste vem de duas fontes básicas:
  • A estrutura subjacente dos dados (uma estrutura que se aplica a outros conjuntos de dados coletados da mesma maneira)
  • As peculiaridades do conjunto de dados específico analisado

Para assegurar que seu modelo não apenas se ajusta a um conjunto de dados específico, você deve verificar o modelo encontrado pelo procedimento de seleção em um novo conjunto de dados. Também é possível usar o conjunto de dados original, dividi-lo aleatoriamente em duas partes, usar uma parte para selecionar um modelo e, depois, verificar o ajuste na segunda parte. Esse procedimento ajuda a garantir que o modelo selecionado seja aplicável a outros conjuntos de dados.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política