Um coeficiente de regressão descreve o tamanho e a direção da relação entre um preditor e variável de resposta. Os coeficientes são os números pelos quais os valores do termo são multiplicados em uma equação de regressão.
O coeficiente de um termo representa a alteração na resposta média associada uma mudança naquele termo, enquanto os outros termos no modelo são mantidos constantes. O sinal do coeficiente indica a direção da relação entre o termo e a resposta. O tamanho do coeficiente é geralmente uma boa maneira de avaliar a significância prática do efeito que um termo exerce sobre a variável de resposta. No entanto, o tamanho do coeficiente não indica se um termo é estatisticamente significativo porque os cálculos para significância também consideram a variação nos dados de resposta. Para determinar a significância estatística, examine o valor de p para o termo.
O coeficiente do termo representa a alteração na resposta média para a mudança da unidade um da mudança daquele termo. Se o coeficiente for negativo, como o termo aumenta, o valor médio da resposta diminui. Se o coeficiente for positivo, como o termo aumenta, o valor médio da resposta aumenta.
Por exemplo, um gerente determina que a pontuação de um funcionário em um teste de habilidades de trabalho pode ser prevista utilizando-se o modelo de regressão, y = 130 + 4.3x1 + 10.1x2. Na equação, x1 são as horas de treinamento in-house (de 0 a 20). A variável x2 é uma variável categórica que é igual a 1 se o funcionário tiver um mentor e 0 se o funcionário não tiver um mentor. A resposta é y e é a pontuação do teste. O coeficiente para a variável contínua de horas de treinamento é de 4,3, o que indica que, para cada hora de treinamento, a pontuação média de teste aumenta em 4,3 pontos. Com o esquema de codificação (0, 1), o coeficiente para a variável categórica de mentoria indica que os funcionários com mentores têm pontuação com média de 10,1 pontos maior do que os funcionários sem mentores.
O Minitab pode ajustar modelos lineares usando uma variedade de esquemas de codificação para as variáveis contínuas do modelo. Esses esquemas de codificação podem melhorar o processo de estimativa e de interpretação dos resultados. Além disso, as unidades codificadas podem alterar os resultados dos testes estatísticos utilizados para determinar se cada termo é um preditor significativo da resposta. Quando um modelo usa unidades codificadas, a análise produz coeficientes codificados.
O erro padrão do coeficiente estima a variabilidade entre a estimativa do coeficiente que seria obtida caso fossem extraídas amostras da mesma população por vezes seguidas. O cálculo pressupõe que o tamanho da amostra e os coeficientes para estimativa permaneceriam os mesmos caso fossem extraídas repetidas amostras.
Use o erro padrão do coeficiente para medir a precisão da estimativa do coeficiente. Quanto menor o erro padrão, mais precisa é a estimativa. Dividir o coeficiente pelo erro padrão calcula um valor t. Se o valor de p associado a esta estatística de t for menor do que o seu nível de significância, você deve concluir que o coeficiente é estatisticamente significativo.
Por exemplo, os técnicos estimam um modelo para a insolação, como parte de um teste de energia solar térmica:
Termo | Coef | EP de Coef | Valor-T | Valor-P | VIF |
---|---|---|---|---|---|
Constante | 809 | 377 | 2,14 | 0,042 | |
Sul | 20,81 | 8,65 | 2,41 | 0,024 | 2,24 |
Norte | -23,7 | 17,4 | -1,36 | 0,186 | 2,17 |
Hora do dia | -30,2 | 10,8 | -2,79 | 0,010 | 3,86 |
Neste modelo, o Norte e o Sul medem a posição de um ponto focal em polegadas. Os coeficientes para o Norte e o Sul são semelhantes em magnitude. O erro padrão do coeficiente para o Sul é menor do que o erro padrão do coeficiente para o Norte. Portanto, o modelo é capaz de estimar o coeficiente para Sul com maior precisão.
O erro padrão do coeficiente do Norte é quase tão grande quanto o valor do coeficiente em si. O valor de p resultante é maior do que os níveis comuns do nível de significância, de forma que não é possível concluir que o coeficiente para Norte difere de 0.
Enquanto o coeficiente para Sul está mais perto de 0 do que o coeficiente para o Norte, o erro padrão do coeficiente para o Sul também é menor. O valor de p resultante é menor do que os níveis de significância comuns. Como a estimativa do coeficiente para o Sul é mais precisa, é possível concluir que o coeficiente para Sul difere de 0.
A significância estatística é um critério que você pode usar para reduzir um modelo em regressão múltipla. Para obter mais informações, vá para Redução de modelo.
Estes intervalos de confiança (IC) são amplitudes de valores que apresentam a probabilidade de conter o verdadeiro valor de cada termo no modelo.
Como as amostras são aleatórias, é improvável que duas amostras de uma população produzam intervalos de confiança idênticos. No entanto, se você extrair muitas amostras aleatórias, uma determinada porcentagem dos intervalos de confiança resultantes conterá o parâmetro populacional desconhecido. A porcentagem destes intervalos de confiança que contém o parâmetro é o nível de confiança do intervalo.
Use o intervalo de confiança para avaliar a estimativa do coeficiente de população para cada termo no modelo.
Por exemplo, com um nível de confiança de 95%, é possível ter 95% de certeza de que o intervalo de confiança contém o valor do coeficiente para a população. O intervalo de confiança ajuda a avaliar a significância prática de seus resultados. Use seu conhecimento especializado para determinar se o intervalo de confiança inclui valores que tenham significância prática para a sua situação. Se o intervalo for muito amplo para ser útil, pense em aumentar o tamanho da amostra.
O valor-t mede a razão entre o coeficiente e seu erro padrão.
O Minitab usa o valor-t para calcular o valor-p, usado para testar se o coeficiente é significativamente diferente de 0.
É possível usar um valor-t para determinar se a hipótese nula deve ser rejeitada. No entanto, o valor-p é usado com mais frequência porque o limite para a rejeição da hipótese nula não depende dos graus de liberdade. Para obter mais informações sobre como usar o valor-t, acesse Usando o valor-t para determinar se a hipótese nula deve ser rejeitada.
O valor-p é uma probabilidade que mede a evidência contra a hipótese nula. As probabilidades inferiores fornecem evidências mais fortes contra a hipótese nula.
O fator de inflação de variância (VIF) indica quanta variância de um coeficiente tem sido inflada devido às correlações entre as preditoras no modelo.
Use o VIF para descrever a quantidade de multicolinearidade (que é a correlação entre preditores) existe em uma análise de regressão. A multicolinearidade é problemática porque pode aumentar a variação dos coeficientes de regressão, o que torna difícil avaliar o impacto individual que cada um dos preditores correlacionados tem sobre a resposta.
VIF | Status do preditor |
---|---|
VIF = 1 | Não correlacionados |
1 < VIF < 5 | Moderadamente correlacionados |
VIF > 5 | Altamente correlacionados |
Para obter mais informações sobre multicolinearidade e como reduzir os efeitos da multicolinearidade, consulte Multicolinearidade na regressão.