Interpretar os principais resultados para Gráfico de linha ajustada

Conclua as etapas a seguir para interpretar um gráfico de linha ajustada. A saída principal inclui o valor-p, o gráfico de linha ajustada, R2 e os gráficos de resíduos.

Passo 1: Determinar se a associação entre a resposta e o termo é estatisticamente significativa

Para determinar se a associação entre a resposta e cada termo no modelo é estatisticamente significativa, compare o valor-p para o termo com o seu nível de significância a fim de avaliar a hipótese nula. A hipótese nula é que o coeficiente do termo é igual a zero, o que indica que não existe uma associação entre o termo e a resposta. Geralmente, um nível de significância (denotado como α ou alfa) de 0,05 funciona bem. Um nível de significância de 0,05 indica um risco de 5% de se concluir que existe uma associação quando não existe uma associação real.
Valor-p ≤ α: A associação é estatisticamente significativa
Se o valor-p for menor ou igual ao nível de significância, é possível concluir que há uma associação estatisticamente significativa entre a variável resposta e o termo. Se você ajustar um modelo quadrático ou um modelo cúbico e os termos quadráticos ou cúbicos forem significativos, é possível concluir que os dados contêm curvatura.
Valor-p > α: a associação não é estatisticamente significativa

Se o valor-p for maior ou igual ao nível de significância, não é possível concluir que há uma associação estatisticamente significativa entre a variável resposta e o termo. Se você ajustar um modelo quadrático ou um modelo cúbico e os termos quadráticos ou cúbicos não forem estatisticamente significativos, talvez você deseje escolher um modelo diferente.

Análise de Variância

FonteGLSQQMFP
Regressão212189,46094,70106,540,000
Erro261487,357,21   
Total2813676,7     

Análise de Variância Sequencial

FonteGLSQFP
Linear111552,8146,860,000
Quadrático1636,611,130,003
Principal resultado: Valor-P

Nestes resultados, o valor-p para o termo linear, Densidade é 0,000 e para o termo quadrático, Densidade2 é de 0,003. Ambos os valores são menores do que o nível de significância de 0,05. Esses resultados indicam que a associação entre dureza e a densidade é estatisticamente significativa.

Passo 2: Determinar se a linha de regressão ajusta seus dados

Avalie como o modelo ajusta seus dados e se o modelo satisfaz os seus objetivos. Examine o gráfico de linha ajustada para determinar se são atendidos os seguintes critérios:
  • A amostra contém um número adequado de observações ao longo de toda a faixa de todos os valores de predição.
  • O modelo ajusta adequadamente qualquer curvatura aos dados. Se você ajustar um modelo linear e observar curvatura nos dados, repita a análise e selecione o modelo quadrático ou cúbico. Para determinar qual modelo é melhor, examine o gráfico e as estatísticas de qualidade do ajuste. Verifique o valor de p para os termos do modelo para garantir de que eles sejam estatisticamente significativos, e aplique o conhecimento do processo para avaliar a significância prática.
  • Procure por todos os outliers, os quais podem exercer forte efeito sobre os resultados. Tente identificar a causa de qualquer outliers. Corrija os erros de entrada de dados ou de medição. Considere a remoção de valores de dados que estejam associados a eventos anormais que ocorrem somente uma vez (causas especiais). Em seguida, repita a análise. Para obter mais informações sobre detecção de outliers, vá para Observações atípicas.
Neste gráfico de linhas ajustadas, os pontos geralmente seguem a linha de regressão. Os pontos cobrem adequadamente toda a amplitude de valores de densidade. Contudo, o ponto no canto direito superior do gráfico parece ser um outlier. Investigue esse ponto para determinar sua causa.

Passo 3: Examinar como o termo está associado à resposta

Se o valor-p do termo for significativo, você pode examinar a equação de regressão e os coeficientes para compreender como o termo está relacionado à resposta.

Use a equação de regressão, para descrever a relação entre a resposta e os termos no modelo. A equação de regressão é uma representação algébrica da linha de regressão. A equação de regressão para o modelo linear assume a seguinte forma: Y= b0 + b1x1. Na equação de regressão, Y é a variável resposta, b0 é a constante ou intercepto, b1 é o valor do coeficiente do termo linear (também conhecido como inclinação da linha), e x1 é o valor do termo.

O coeficiente do termo representa a alteração na resposta média para a mudança da unidade um daquele termo. O sinal do coeficiente indica a direção da relação entre o termo e a resposta. Se o coeficiente for negativo, como o termo aumenta, o valor médio da resposta diminui. Se o coeficiente for positivo, como o termo aumenta, o valor médio da resposta aumenta.

Por exemplo, um gerente determina que a pontuação de um funcionário em um teste de habilidades de trabalho pode ser prevista utilizando-se o modelo de regressão, y = 130 + 4,3x. Na equação, x são as horas de treinamento in-house (de 0 a 20) e y é o resultado do teste. O coeficiente, ou inclinação, é de 4,3, o que indica que, para cada hora de treinamento, a pontuação média de teste aumenta em 4,3 pontos.

Para obter mais informações sobre coeficientes, vá para Coeficientes de regressão.

A equação de regressão é
Dureza = 12,70 - 1,517 Densidade + 0,1622 Densidade^2

Sumário do Modelo

SR2R2(aj)
7,5634289,13%88,29%
Principais resultados: Equação de regressão, coeficiente

O coeficiente para o preditor, Densidade, é de –1,517 e, para a Densidade2, o coeficiente é de 0,1622. Assim, com uma relação quadrática, a rigidez média do aglomerado aumenta mais rapidamente com valores de densidade maiores do que com valores de densidade menores.

Passo 4: Determine se o modelo ajusta bem os dados

Para determinar se o modelo ajusta bem os dados, examine as estatísticas de qualidade do ajuste tabela do resumo do modelo.

R-sq

R2 é o percentual de variação na resposta que é explicada pelo modelo.Quanto maior o valor R2, melhor o modelo ajusta seus dados.R2 está sempre entre 0% e 100%.

R2 sempre aumenta quando você adiciona mais preditores a um modelo. Por exemplo, o melhor modelo de cinco preditores terá sempre um R2 que seja pelo menos tão elevado quanto o melhor modelo de quatro preditores. Portanto, R2 é mais útil quando comparado a modelos do mesmo tamanho.

R-sq (adj)

Use R2 ajustado quando desejar comparar modelos que têm diferentes números de preditores. R2 sempre aumenta quando você adiciona um preditor ao modelo, mesmo quando não existe uma verdadeira melhoria ao modelo. O valor de R2 ajustado incorpora o número de preditores no modelo para ajudá-lo a escolher o modelo correto.

Considere o seguinte quando você comparar os valores de R2:
  • Amostras pequenas não fornecem uma estimativa precisa da força da relação entre a resposta e os preditores. Por exemplo, se você precisar que R2 seja mais exato, deve usar uma amostra maior (geralmente, 40 ou mais).

  • A estatística de qualidade do ajuste é apenas uma medida do grau em que o modelo ajusta os dados (se ajusta bem ou mal). Mesmo quando um modelo tem um um valor desejável, você deve verificar os gráficos de resíduos para conferir se o modelo atende aos pressupostos do modelo.

A equação de regressão é
Dureza = 12,70 - 1,517 Densidade + 0,1622 Densidade^2

Sumário do Modelo

SR2R2(aj)
7,5634289,13%88,29%
Principal resultado: R-sq

Nesses resultados, a densidade do aglomerado explica aproximadamente 89% da variação na dureza das placas. O valor de R2 indica que o modelo ajusta bem os dados.

Passo 5: Determine se seu modelo atende aos pressupostos da análise

Use os gráficos de resíduos para ajudar a determinar se o modelo é adequado e satisfaz aos pressupostos da análise. Se os pressupostos não forem satisfeitos, o modelo pode não ajustar bem os dados e você deve ter cautela ao interpretar os resultados.

Gráficos de resíduos versus de ajustes

Use o gráfico de resíduos versus ajustes para verificar a pressuposição de que os resíduos são aleatoriamente distribuídos e têm variância constante. De maneira ideal, os pontos devem cair aleatoriamente em ambos os lados de 0, sem padrões reconhecíveis nos pontos.

Os padrões na tabela a seguir podem indicar que o modelo não atende às suposições de modelo.
Padrão O que o padrão pode indicar
Dispersão grande ou irregular de resíduos entre valores ajustados Variância não constante
Curvilíneo Um termo de ordem mais alta ausente
Um ponto que está distante de zero Um outlier
Um ponto que é distante dos outros pontos na direção x Um ponto influente
Nestes gráficos de resíduos versus valores ajustados, os pontos aparecem aleatoriamente espalhados no gráfico. Contudo, o ponto no canto direito superior do gráfico parece ser um outlier. Tente identificar a causa do outlier. Corrija os erros de entrada de dados ou de medição. Considere a remoção de valores de dados que estejam associados a eventos anormais que ocorrem somente uma vez (causas especiais). Em seguida, repita a análise.

Gráfico de resíduos versus ordem

Use o gráfico de resíduos versus ordem para verificar o pressuposto de que os resíduos são independentes um do outro. Resíduos independentes não mostram tendências nem padrões quando exibidos em ordem temporal. Os padrões nos pontos podem indicar que os resíduos próximos uns dos outros podem ser correlacionados e, portanto, não são independentes. De maneira ideal, os resíduos no gráfico devem cair aleatoriamente em torno da linha central:
Se você vir um padrão, investigue a causa. Os seguintes tipos de padrões podem indicar que os resíduos são dependentes.
Tendência
Mudança
Ciclo
Neste gráfico de resíduos versus ordem, os pontos não parecem cair aleatoriamente em torno da linha central. Os pontos que correspondem às observações nas linhas 15, 21 e 23 da worksheet têm resíduos maiores.

Gráfico de probabilidade normal

Use o gráfico de probabilidade normal de resíduos para verificar a pressuposição de que os resíduos são distribuídos normalmente. O gráfico de probabilidade normal dos resíduos deve seguir aproximadamente uma linha reta.

Os padrões na tabela a seguir podem indicar que o modelo não atende às suposições de modelo.
Padrão O que o padrão pode indicar
Não é uma linha reta Não normalidade
Um ponto que está distante da linha Um outlier
Inclinação em alteração Uma variável não identificada
Neste gráfico de probabilidade normal, os resíduos se desviam levemente da linha reta. No entanto, quando os dados contêm pelo menos 15 pontos, a normalidade geralmente não é um problema para um cálculo confiável de valor-p.

Para obter mais informações sobre como lidar com padrões nos gráficos de resíduos, vá para Gráficos de resíduos para Gráfico de linha ajustada.