Etapa de seleção de R-quadrado versus modelo

Quando você usa a Seleção forward com validação como procedimento stepwise, o Minitab emite um gráfico da estatística R2 para o conjunto de dados de treinamento e estatística do teste R2 ou a estatística stepwise de R2 de K-dobras para cada etapa no procedimento de seleção do modelo. Se você usar um conjunto de dados de teste ou validação cruzada de K dobras determinará qual dos dois será exibido: a estatística do teste R2 ou a estatística stepwise de R2 de K dobras .

Interpretação

Use o gráfico para comparar os valores das diferentes estatísticas R2 em cada etapa. Normalmente, o modelo tem um bom desempenho quando as estatísticas R2 são ambas grandes. O Minitab exibe a estatística de regressão para o modelo a partir da etapa que maximiza a estatística do teste R2 ou a estatística stepwise de R2 de K dobras. O gráfico mostra se algum modelo mais simples ajusta bem o suficiente para que também possam ser bons candidatos.

Em um caso em que o modelo está superajustado, a estatística do teste R2 ou a estatística stepwise de R2 de K dobras começa a diminuir à medida que os termos entram no modelo. Essa diminuição acontece enquanto a estatística R2 de treinamento correspondente ou a estatística R2 para todos os dados continua a aumentar. Um modelo superajustado ocorre quando você adiciona termos para efeitos que não são importantes na população. Um modelo superajustado pode não ser útil para fazer predições sobre a população. Se um modelo estiver superajustado, você pode considerar modelos de etapas anteriores.

O gráfico a seguir mostra do teste R2 como exemplo. Inicialmente, a estatística R2 estão perto de 70%. Para as primeiros etapas, a estatística R2 tendem a aumentar à medida que os termos entram no modelo. Na etapa 6, a estatística do teste R2 é de aproximadamente 88%. O valor máximo da estatística do teste R2 está na etapa 14 e tem um valor próximo a 90%. Você pode considerar se a melhoria no ajuste justifica a complexidade extra de adicionar mais termos ao modelo.

Após a etapa 14, enquanto o R2 continua a aumentar, não acontece o mesmo com o R2. A diminuição do teste R2 após a etapa 14 indica que o modelo está superajustado.