Na regressão dos melhores subconjuntos, o Minitab seleciona os dois modelos com os maiores valores R2 que contêm uma preditora, duas preditoras, e assim por diante. Você pode determinar quais preditoras estão incluídas em cada modelo com base em quais colunas na tabela de saída estão marcadas com um "X".
Uso de estatísticas de qualidade do ajuste para determinar qual modelo fornece o melhor ajuste para seus dados. Antes de selecionar um modelo final, você deve examinar os gráficos de resíduos e outras medidas de diagnóstico para assegurar que o modelo atende as suposições da análise.
Quanto mais alto o valor de R2 melhor o modelo ajusta seus dados. O valor de R2 está sempre entre 0 e 100%.
O R2 sempre aumenta quando você adiciona mais preditores a um modelo. Por exemplo, o melhor modelo de cinco preditores terá sempre um R2 que é pelo menos tão elevado quanto o melhor modelo de quatro preditores. Portanto, R2 é mais útil quando for comparado a modelos do mesmo tamanho.
Use o R2 ajustado quando desejar comparar modelos que têm diferentes números de preditores. R2 sempre aumenta quando você adiciona um preditor ao modelo, mesmo quando não existe uma verdadeira melhoria ao modelo. O valor de R2 ajustado incorpora o número de preditores no modelo para ajudá-lo a escolher o modelo correto.
Use R2 predito para determinar o quão bem seu modelo prediz as respostas para novas observações.Modelos que têm valores de R2 predito mais elevado têm melhor capacidade preditiva.
Um R2 predito que é substancialmente menor que o R2 pode indicar que o modelo está com excesso de ajuste. Um modelo com excesso de ajuste ocorre quando você adiciona termos para efeitos que não são importantes na população. O modelo se adapta aos dados de amostra e, por conseguinte, pode não ser útil para fazer predições em relação à população.
O R2 previsto também pode ser mais útil do que o R2 ajustado para a comparação de modelos, porque ele é calculado com as observações que não estão incluídas no cálculo do modelo.
Use S para avaliar se o modelo descreve bem a resposta. Use S em vez das estatísticas de R2 para comparar o ajuste de modelos que não têm constante.
S é medido nas unidades da variável de resposta e representa o quão longe os valores de dados caem dos valores ajustados. Quanto mais baixo for o valor de S, melhor o modelo descreve a resposta. No entanto, um valor de S baixo por si só não indica que o modelo satisfaz aos pressupostos do modelo. Você deve verificar os gráficos de resíduos para conferir os pressupostos.
Amostras pequenas não fornecem uma estimativa precisa da força da relação entre a resposta e os preditores. Por exemplo, se você precisar que R2 seja mais exato, deve usar uma amostra maior (geralmente, 40 ou mais).
A estatística de qualidade do ajuste é apenas uma medida do grau em que o modelo ajusta os dados (se ajusta bem ou mal). Mesmo quando um modelo tem um um valor desejável, você deve verificar os gráficos de resíduos para conferir se o modelo atende aos pressupostos do modelo.
Vars | R-quad. | R2 (aj) | R2 (pred) | Cp de Mallows | S | I n s o l a ç ã o | L e s t e | S u l | N o r t e | H o r a d o d i a |
---|---|---|---|---|---|---|---|---|---|---|
1 | 72,1 | 71,0 | 66,9 | 38,5 | 12,328 | X | ||||
1 | 39,4 | 37,1 | 26,3 | 112,7 | 18,154 | X | ||||
2 | 85,9 | 84,8 | 81,4 | 9,1 | 8,9321 | X | X | |||
2 | 82,0 | 80,6 | 74,2 | 17,8 | 10,076 | X | X | |||
3 | 87,4 | 85,9 | 79,0 | 7,6 | 8,5978 | X | X | X | ||
3 | 86,5 | 84,9 | 81,4 | 9,7 | 8,9110 | X | X | X | ||
4 | 89,1 | 87,3 | 80,6 | 5,8 | 8,1698 | X | X | X | X | |
4 | 88,0 | 86,0 | 79,3 | 8,2 | 8,5550 | X | X | X | X | |
5 | 89,9 | 87,7 | 78,8 | 6,0 | 8,0390 | X | X | X | X | X |
Nesses resultados, há diversos modelos a examinar adicionalmente. O modelo com todas as 5 preditoras tem o menor valor de S e o maior valor de R2 ajustado, aproximadamente 8 e 88%, respectivamente. Um modelo com 2 preditoras e um modelo com 3 preditoras, ambos têm o maior R2 predito, que é de 81,4%. Antes de selecionar o modelo final, você deve examinar os modelos quanto a violações de suposições de regressão, usando gráficos de resíduos e outras medidas de diagnóstico.