Execute a regressão passo a passo para Ajuste do modelo de regressão e Régression linéaire

Estat > Regressão > Regressão > Ajuste do modelo de regressão > Stepwise

Módulo de análise preditiva > Regressão Linear > Stepwise

Método

Com o propósito de identificar um subconjunto útil dos termos, o stepwise remove e adiciona termos ao modelo. Se você escolher um procedimento stepwise, os termos que você especificar na caixa de diálogo Modelo são candidatos para o modelo final. Para obter mais informações, acesse Usando regressão stepwise e regressão de melhores subconjuntos.

Especifique o método que o Minitab usa para ajustar o modelo.
  • Nenhum: Ajuste o modelo com todos os termos que especificar na caixa de diálogo Modelo.
  • Stepwise: Este método começa com um modelo vazio, ou inclui os termos especificados para incluir no modelo inicial ou em cada modelo. Em seguida, o Minitab adiciona ou remove um termo para cada passo. Você pode especificar os termos a serem incluídos no modelo inicial ou forçar em todos os modelos. O Minitab para quando todas as variáveis que não estão no modelo têm valores-p maiores do que o valor especificado Alfa para entrada e quando todas as variáveis do modelo têm valores-p menores ou iguais ao valor especificado de Alfa para remoção.
  • Seleção forward: Este método começa com um modelo vazio, ou inclui os termos especificados para incluir no modelo inicial ou em cada modelo. Em seguida, o Minitab adiciona o termo mais significativo para cada passo. O Minitab para quando todas as variáveis que não estão no modelo têm valores-p maiores do que o valor especificado de Alfa para entrada.
  • Eliminação backward: Este método começa com todos os termos potenciais no modelo e remove o termo menos significativo para cada passo. O Minitab para quando todas as variáveis do modelo têm valores-p inferiores ou iguais ao valor especificado de Alfa para remoção.
  • Critério de informação Forward: O procedimento de critérios de informação forward adiciona o termo com o menor valor-p ao modelo a cada passo. Os termos adicionais podem entrar no modelo em 1 passo se as configurações para a análise permitirem a consideração de termos não hierárquicos, mas exigirem que cada modelo seja hierárquico. O Minitab calcula os critérios de informação para cada passo. Na maioria dos casos, o procedimento continua até que ocorra uma das seguintes condições:
    • O procedimento não encontra uma melhoria do critério por 8 passos consecutivos.
    • O procedimento ajusta o modelo completo.
    • O procedimento ajusta um modelo que deixa 1 grau de liberdade para erro.
    Se você especificar configurações para o procedimento que requerem um modelo hierárquico em cada passo e permitir a entrada de apenas um termo de cada vez, o procedimento continua até que ele ajuste modelo completo ou ajuste um modelo que deixa 1 grau de liberdade para erro. O Minitab exibe os resultados da análise do modelo com o valor mínimo do critério de informação selecionado, seja AICc ou BIC.
  • Seleção forward com validação: A seleção forward com procedimento de validação depende do método de validação. Quando você usa um conjunto de dados de teste, o procedimento é semelhante à seleção forward. No final de cada passo, o Minitab calcula a estatística do teste R2. Ao final do procedimento de seleção forward, o modelo com o maior valor no teste R2 será o modelo final.

    Com a validação cruzada, o procedimento repete a seleção forward em cada dobra. O procedimento avalia todas as dobras a cada passo e identifica o passo com o melhor valor de R2 stepwise de k dobras. A última parte do procedimento é realizar a seleção forward no conjunto de dados completo, parando no melhor passo das seleções nas dobras.

    Para ambos os tipos de validação, o procedimento para nas mesmas condições do procedimento de critérios de informações forward.

Observação

Os termos incluídos no modelo final podem depender de restrições de hierarquia dos modelos. Para obter mais informações, consulte o tópico sobre Hierarquia apresentado abaixo.

Termos potenciais

Exibe o conjunto de termos que o procedimento avaliará. Os indicadores (T ou I) ao lado do termo na lista significam a forma como o processo lida com o termo. O Método que você escolhe determina os ajustes iniciais nesta lista. É possível modificar a forma como o processo lida com os termos usando os dois botões abaixo. Se você não utilizar estes botões, o procedimento pode adicionar ou remover o termo do modelo com base em seu valor-p.
  • E = Incluir termo em todos os modelos: selecione um termo e clique neste botão para forçar o termo em todos os modelos, independentemente do seu valor-p. Clique no botão novamente para remover essa condição.
  • I = Incluir termo no modelo inicial: selecione um termo e clique neste botão para incluir o termo no modelo inicial. O procedimento pode remover estes termos se o valor-p for elevado demais. Clique no botão novamente para remover essa condição. Este botão só está disponível se você selecionar Stepwise em Método.

Alfa para entrada e remova

Alfa para entrada
Insira o valor de alfa que o Minitab usa para determinar se um termo pode ser inserido no modelo. Você pode definir esse valor ao selecionar Stepwise ou Seleção forward em Método.
Alfa para remoção
Insira o valor de alfa que o Minitab usa para determinar se um termo está removido do modelo. Você pode definir esse valor ao selecionar Stepwise ou Eliminação backward em Método.

Critério

Especifique quais critérios de informações devem ser usados na seleção progressiva

Tanto AICc como BIC avaliam a verossimilhança do modelo e aplicam uma penalidade para adicionar termos ao modelo. Tal penalidade reduz a tendência de sobreajuste do modelo aos dados amostrais. Essa redução pode produzir um modelo com melhor desempenho geral.

Como orientação geral, quando o número de parâmetros é pequeno em relação ao tamanho amostral, o BIC tem uma penalidade maior do que o AICc para a adição de cada parâmetro. Nesses casos, o modelo que minimiza o BIC tende a ser menor do que o modelo que minimiza o AICc.

Em alguns casos comuns, tais como filtragens de experimento, o número de parâmetros geralmente é grande em relação ao tamanho amostral. Nesses casos, o modelo que minimiza o AICc tende a ser menor do que o modelo que minimiza o BIC. Por exemplo, para uma filtragem de experimento definitiva de 13 ensaios, o modelo que minimiza o AICc tenderá a ser menor que o modelo que minimiza o BIC no conjunto de modelos com 6 ou mais parâmetros.

Para obter mais informações sobre AICc e BIC, consulte Burnham e Anderson.1

Especifique validação para Seleção forward com validação

Observação

As configurações de validação também estão na subcaixa de diálogo Validação. Se você alterar as configurações, o Minitab atualiza automaticamente as configurações em ambos os lugares.

Quando você selecionar Seleção forward com validação, escolha o método de validação para testar seu modelo. Normalmente, com amostras menores, o método de validação cruzada de K dobras é apropriado. Com amostras maiores, você pode dividir os dados em um conjunto de dados de treinamento e um conjunto de dados de teste.

Validação cruzada de K dobras

Complete as seguintes etapas para usar a validação cruzada de K dobras.

  1. Na lista suspensa, selecione Validação cruzada de K dobras.
  2. Escolha uma das opções a seguir para determinar se deve atribuir dobras aleatoriamente ou com uma coluna ID.
    • Atribuir aleatoriamente linhas de cada dobras: Selecione esta opção para fazer com que o Minitab selecione aleatoriamente as linhas para cada dobra. Você pode especificar o número de dobras. O valor padrão de 10 funciona bem na maioria dos casos. Usar um valor menor de K pode introduzir um viés ainda maior; contudo, valores maiores de K podem introduzir mais variabilidade. Também é possível definir uma base para o gerador de números aleatórios.
    • Atribuir linhas de cada duplicação por coluna de ID: Selecione esta opção para escolher as linhas a serem incluídas em cada dobra. Em Coluna de IDs, digite a coluna que identifica as dobras. Cada linha com o mesmo valor na coluna ID está na mesma dobra.

Validação com um conjunto de testes

Conclua as etapas a seguir para dividir os dados em um conjunto de dados de treinamento e um conjunto de dados de teste.

  1. Na lista suspensa, selecione Validação com um conjunto de testes.
  2. Selecione uma das opções a seguir para determinar se selecionará uma fração de linhas aleatoriamente ou se selecionará uma fração de linhas com uma coluna de ID.
    • Selecionar aleatoriamente uma fração de linhas como um conjunto de teste: Selecione esta opção para fazer com que o Minitab selecione aleatoriamente o conjunto de dados de teste. Você pode especificar a quantidade de dados a serem usados no conjunto de dados de teste. O valor padrão de 0,3 funciona bem na maioria dos casos. Você deseja incluir dados suficientes no conjunto de dados de teste para avaliar bem o modelo. Se você não tem certeza sobre a forma do modelo, um conjunto de dados de teste maior proporcionará uma validação mais sólida. Você também deseja ter dados suficientes no conjunto de dados de treinamento para ter uma boa estimativa do modelo. Normalmente, modelos com mais preditores exigem a estimativa de mais dados de treinamento.
    • Definir a divisão de treinamento/teste por coluna IDs: Selecione esta opção para escolher você mesmo as linhas a serem incluídas no conjunto de dados de teste. Em Coluna de IDs, digite a coluna que indica quais linhas devem ser usadas para a amostra de teste. A coluna ID deve conter apenas dois valores. Em Nível para conjunto de teste, selecione qual nível deve ser usado como amostra de teste.

Hierarquia

Você pode determinar como o Minitab impõe a hierarquia do modelo durante um procedimento stepwise. O botão Hierarquia é desativado se você especificar um modelo não-hierárquico na caixa de diálogo Modelo.

Em um modelo hierárquico, todos os termos de ordem inferior que incluem os termos de ordem superior também aparecem no modelo. Por exemplo, um modelo que inclui o termo de interação A*B*C é hierárquico se incluir estes termos: A, B, C, A*B, A*C e B*C.

Os modelos podem ser não-hierárquicos. Geralmente, você pode remover termos de ordem inferior se eles forem insignificantes, exceto se o conhecimento da área do assunto sugerir que você os inclua. Os modelos que contêm muitos termos podem ser relativamente imprecisos e podem reduzir a capacidade de predizer os valores de novas observações.

Considere as seguintes dicas:
  • Ajuste um modelo hierárquico primeiro. Você pode remover os termos insignificantes depois.
  • Se você padroniza suas preditoras contínuas, ajuste um modelo hierárquico para produzir uma equação em unidades não codificadas (ou naturais).
  • Se o modelo contiver variáveis categóricas, os resultados serão mais fáceis de interpretar se os termos categóricos forem, no mínimo, hierárquicos.
Modelo hierárquico
Escolha se o procedimento stepwise deve produzir um modelo hierárquico.
  • Exigir um modelo hierárquico em cada etapa: O Minitab só pode adicionar ou remover os termos que mantiverem a hierarquia.
  • Adicionar termos ao final para tornar o modelo hierárquico: Inicialmente, o Minitab segue as regras padrão do procedimento stepwise. Na etapa final, o Minitab adiciona os termos que produzem um modelo hierárquico, mesmo que seus valores-p sejam maiores do que o valor de Alfa para entrada. Se você selecionar esta opção quando o Método for Critério de informação Forward, o Minitab exibe um erro. Para obter um modelo hierárquico que minimize o critério entre os modelos nas etapas, selecione Exigir um modelo hierárquico em cada etapa.
  • Não exigir um modelo hierárquico: O modelo final pode ser não-hierárquico. O Minitab irá adicionar e remover termos baseados apenas nas regras do procedimento stepwise.
Exigir hierarquia para os seguintes termos
Se você precisar de um modelo hierárquico, escolha os tipos de termos que devem ser hierárquicos.
  • Todos os termos: Termos que incluem as variáveis contínuas e/ou categóricas devem ser hierárquicos.
  • Termos com preditores categóricos: Apenas termos que incluem variáveis categóricas devem ser hierárquicos.
Quantos termos podem entrar em cada etapa
Se você precisar de hierarquia em cada etapa, escolha o número de termos que o Minitab pode adicionar em cada etapa, a fim de manter a hierarquia.
  • No máximo um termo pode entrar em cada etapa: Um termo de ordem superior pode entrar no modelo somente se a hierarquia for mantida ao acrescentar aquele único termo. Todos os termos de ordem inferior que compreendem a ordem mais elevada devem já estar no modelo.
  • Termos extras podem entrar para manter a hierarquia: Um termo de ordem superior pode entrar no modelo, mesmo que produza um modelo não hierárquico. No entanto, os termos que são necessários para produzir um modelo hierárquico também são adicionados, mesmo se os seus valores-p forem maiores que o valor de Alfa para entrada.

Exibir a tabela de detalhes da seleção do modelo

Especifique as informações a serem exibidas sobre o procedimento stepwise.
  • Detalhes sobre o método: Exibir o tipo de procedimento stepwise e os valores de alfa a serem inseridos e/ou remover um preditor do modelo.
  • Incluir detalhes para cada etapa: Exibir os coeficientes e valores-p, e estatísticas de resumo do modelo para cada etapa do procedimento.

Exibir o gráfico de R-quadrado vs passo

Quando você escolher Seleção forward com validação, exiba um gráfico dos valores de treinamento e validação R2 para cada etapa na seleção forward. Normalmente, você usa o gráfico para determinar se modelos mais simples têm valores de validação semelhantes.

1 Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection. Sociological Methods & Research, 33(2), 261-304. doi:10.1177/0049124104268644