Interpretar os principais resultados para Ajuste do modelo de regressão e Régression linéaire

Conclua as etapas a seguir para interpretar um modelo de regressão. A saída principal inclui o valor p, os coeficientes, R2 e os gráficos residuais.

Etapa 1: Determine quais termos mais contribuem para a variabilidade na resposta

Use um gráfico de Pareto dos efeitos para comparar a magnitude relativa e a significância estatística dos termos. O gráfico aparece quando o modelo deixa graus de liberdade para erro.

O Minitab representa graficamente os termos em ordem decrescente de seus valores absolutos. A linha de referência no gráfico indica quais termos são significativos. Por padrão, o Minitab usa um nível de significância de 0,05 para traçar a linha de referência.

Resultados principais: gráfico de Pareto

Nestes resultados, os efeitos para três termos são estatisticamente significativos (α = 0,05). Os efeitos significativos são a concentração de formaldeído (A), a proporção de catalisador (B) e a temperatura (C). O efeito para o tempo (D) não é estatisticamente significativo porque a barra não se estende além da linha vermelha.

O maior efeito é a proporção de catalisador (B), porque a barra se estende para mais longe. O efeito para o tempo (D) é o menor porque a barra apresenta menos extensão.

Etapa 2: Determinar se a associação entre a resposta e o termo é estatisticamente significativa

Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que não há nenhuma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real.
Valor-p ≤ α: a associação é estatisticamente significativa
Se o valor-p for menor ou igual ao nível de significância, é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e o termo.
Valor-p > α: a associação não é estatisticamente significativa
Se o valor-p for maior ou igual ao nível de significância, não é possível concluir que há uma associação estatisticamente significativa entre a variável de resposta e o termo. Talvez seja necessário reajustar o modelo sem o termo.
Se houver vários preditores sem uma associação estatisticamente significativa com a resposta, você pode reduzir o modelo removendo os termos um de cada vez. Para obter mais informações sobre como remover os termos do modelo, vá para Redução de modelo.
Se um termo do modelo for estatisticamente significativo, a interpretação dependerá do tipo de termo. As interpretações são da seguinte maneira:
  • Se um preditor contínuo for significativo, é possível concluir que o coeficiente para o indicador não é igual a zero.
  • Se uma preditora categórica for significativa, é possível concluir que nem todas as médias de nível são iguais.
  • Se um termo de interação for significativa, é possível concluir que a relação entre um preditor e que a resposta depende dos outros preditores no termo.
  • Se um termo polinomial for significativo, é possível concluir que os dados contêm curvatura.

Coeficientes

TermoCoefEP de CoefValor-TValor-PVIF
Constante-0,7560,736-1,030,314 
Conc0,15450,06332,440,0221,03
Taxa0,21710,03166,860,0001,02
Temp0,010810,004622,340,0271,04
Tempo0,09460,05461,730,0941,00
Principais resultados: Valor-p, Coeficientes

A concentração de formaldeído, a razão do catalisador e a temperatura dos preditores têm valores-p menores do que o nível de significância de 0,05. Esses resultados indicam que esses preditores têm relações com a resistência a enrugamentos que são estatisticamente significativos. Por exemplo, o coeficiente para concentração de formaldeído estima que a resistência a enrugamentos média aumenta em 0,1545 unidades para cada aumento de uma unidade na concentração, enquanto os outros termos do modelo são mantidos constantes.

O valor-p para tempo é maior do que 0,05, o que indica que não há evidências suficientes para concluir que o tempo está relacionado à resposta. O químico pode querer reajustar o modelo sem este preditor.

Etapa 3: Determinar quão bem o modelo se ajusta aos seus dados

Para determinar se o modelo ajusta bem os dados, examine as estatísticas de qualidade do ajuste tabela do resumo do modelo.

S

Use S para avaliar se o modelo descreve bem a resposta. Use S em vez das estatísticas de R2 para comparar o ajuste de modelos que não têm constante.

S é medido nas unidades da variável de resposta e representa o quão longe os valores de dados caem dos valores ajustados. Quanto mais baixo for o valor de S, melhor o modelo descreve a resposta. No entanto, um valor de S baixo por si só não indica que o modelo satisfaz aos pressupostos do modelo. Você deve verificar os gráficos de resíduos para conferir os pressupostos.

R2

Quanto mais alto o valor de R2 melhor o modelo ajusta seus dados. O valor de R2 está sempre entre 0 e 100%.

O R2 sempre aumenta quando você adiciona mais preditores a um modelo. Por exemplo, o melhor modelo de cinco preditores terá sempre um R2 que é pelo menos tão elevado quanto o melhor modelo de quatro preditores. Portanto, R2 é mais útil quando for comparado a modelos do mesmo tamanho.

R2 (aj)

Use o R2 ajustado quando desejar comparar modelos que têm diferentes números de preditores. R2 sempre aumenta quando você adiciona um preditor ao modelo, mesmo quando não existe uma verdadeira melhoria ao modelo. O valor de R2 ajustado incorpora o número de preditores no modelo para ajudá-lo a escolher o modelo correto.

R2 (pred)

Use R2 predito para determinar o quão bem seu modelo prediz as respostas para novas observações.Modelos que têm valores de R2 predito mais elevado têm melhor capacidade preditiva.

Um R2 predito que é substancialmente menor que o R2 pode indicar que o modelo está com excesso de ajuste. Um modelo com excesso de ajuste ocorre quando você adiciona termos para efeitos que não são importantes na população. O modelo se adapta aos dados de amostra e, por conseguinte, pode não ser útil para fazer predições em relação à população.

O R2 previsto também pode ser mais útil do que o R2 ajustado para a comparação de modelos, porque ele é calculado com as observações que não estão incluídas no cálculo do modelo.

AICc e BIC
Quando você mostra os detalhes para cada etapa de um método stepwise ou quando você mostra os resultados expandidos da análise, o Minitab mostra mais duas estatísticas. Essas estatísticas são o Critério de Informação de Akaike Corrigido (AICc) e o Critério de Informação Bayesiano (BIC). Use essas estatísticas para comparar modelos diferentes. Para cada estatística, valores menores são preferíveis.
Considere os seguintes pontos quando interpretar as estatísticas de qualidade de ajuste:
  • Amostras pequenas não fornecem uma estimativa precisa da força da relação entre a resposta e os preditores. Por exemplo, se você precisar que R2 seja mais exato, deve usar uma amostra maior (geralmente, 40 ou mais).

  • A estatística de qualidade do ajuste é apenas uma medida do grau em que o modelo ajusta os dados (se ajusta bem ou mal). Mesmo quando um modelo tem um um valor desejável, você deve verificar os gráficos de resíduos para conferir se o modelo atende aos pressupostos do modelo.

Sumário do Modelo

SR2R2(aj)R2(pred)
0,81184072,92%68,90%62,81%
Principais Resultados: S, R2, R2(aj), R2(pred)

Nesses resultados, o modelo explica aproximadamente 73% da variação na resposta. Para esses dados, o valor R2 indica que o modelo fornece um ajuste adequado aos dados. Se você ajustar modelos adicionais com preditoras diferentes, use os valores R2 ajustados e os valores preditos R2 para comparar quão bem os modelos se ajustam aos dados.

Etapa 4: Determinar se o modelo atende às suposições da análise

Use os gráficos de resíduos para ajudar a determinar se o modelo é adequado e satisfaz aos pressupostos da análise. Se os pressupostos não forem satisfeitos, o modelo pode não ajustar bem os dados e você deve ter cautela ao interpretar os resultados.

Para obter mais informações sobre como lidar com os padrões nos gráficos residuais, vá para Parcelas residuais para Ajuste do modelo de regressão e Régression linéaire e clique no nome do gráfico residual na lista na parte superior da página.

Gráficos de resíduos versus de ajustes

Use o gráfico de resíduos versus ajustes para verificar a pressuposição de que os resíduos são aleatoriamente distribuídos e têm variância constante. De maneira ideal, os pontos devem cair aleatoriamente em ambos os lados de 0, sem padrões reconhecíveis nos pontos.

Os padrões na seguinte tabela podem indicar que o modelo não atende às suposições do modelo.
Padrão O que o padrão pode indicar
Dispersão grande ou irregular de resíduos entre valores ajustados Variância não constante
Curvilíneo Um termo de ordem mais alta ausente
Um ponto que está distante de zero Um outlier
Um ponto que é distante dos outros pontos na direção x Um ponto influente
Neste gráfico de resíduos versus valores ajustados, os pontos não parecem estar aleatoriamente distribuídos sobre zero. Parece haver agrupamentos de pontos que poderiam representar diferentes grupos nos dados. Você deve investigar os grupos para determinar sua causa.

Gráfico de resíduos versus ordem

Use o gráfico de resíduos versus ordem para verificar o pressuposto de que os resíduos são independentes um do outro. Resíduos independentes não mostram tendências nem padrões quando exibidos em ordem temporal. Os padrões nos pontos podem indicar que os resíduos próximos uns dos outros podem ser correlacionados e, portanto, não são independentes. De maneira ideal, os resíduos no gráfico devem cair aleatoriamente em torno da linha central:
Se você vir um padrão, investigue a causa. Os seguintes tipos de padrões podem indicar que os resíduos são dependentes.
Tendência
Deslocamento
Ciclo
Neste gráfico de resíduos versus ordem, os resíduos não parecem estar aleatoriamente distribuídos sobre zero. Os resíduos parecem diminuir sistematicamente conforme a ordem de observação aumenta. Você deve investigar a tendência para determinar a causa.

Gráficos de probabilidade normal dos resíduos

Use o gráfico de probabilidade normal de resíduos para verificar a pressuposição de que os resíduos são distribuídos normalmente. O gráfico de probabilidade normal dos resíduos deve seguir aproximadamente uma linha reta.

Os padrões na seguinte tabela podem indicar que o modelo não atende às suposições do modelo.
Padrão O que o padrão pode indicar
Não é uma linha reta Não normalidade
Um ponto que está distante da linha Um outlier
Alteração de inclinação Uma variável não identificada
Neste gráfico de probabilidade normal, os pontos, em geral, seguem uma linha reta. Não há nenhuma evidência de não normalidade, outliers ou variáveis não identificadas.

Passo 5: Use o modelo ajustado

Depois de ajustar um modelo, você pode criar gráficos, fazer previsões e otimizar respostas de forma rápida e fácil. Para obter mais informações, selecione uma análise na lista a seguir:
Observação

As plotagens de contorno sobrepostas estão disponíveis quando você ajusta um modelo no Estat menu.