Métodos e fórmulas para medidas de diagnóstico em Ajuste do modelo de regressão e Régression linéaire

Selecione o método ou a fórmula de sua escolha.

Neste tópico

Leverages (Hi)
Leverages (Hi) com validação
Distância de Cook
DFITS
Fator de inflação de variância (VIF)
Estatística de Durbin-Watson

Leverages (Hi)

Leverages são obtidos a partir da matriz chapéu (H), que é uma matriz de projeção de n x n:

O leverage da i^a observação é o i^o elemento diagonal, h_i de H. Se h_i for grande, a i^a observação tem preditores incomuns (X_1i, X_2i, ..., X_pi). Isto é, os valores de predição estão longe da média do vetor , usando a distância de Mahalanobis .

Os valores de leverage ficam entre 0 e 1. O Minitab identifica observações com leverages acima de 3p/n ou 0,99, o que for menor, com um X na tabela de observações incomuns. Normalmente, você examina valores com leverages grandes.

Notação

Termo	Descrição
X	matriz de planejamento
h_i	i^o elemento diagonal da matriz chapéu
p	número de termos no modelo incluindo a constante
n	número de observações

Leverages (Hi) com validação

Fórmula

Com dados de validação, os leverages de cada linha vêm da seguinte fórmula:

Para regressão ponderada, a fórmula inclui o peso:

Notação

Termo	Descrição
X	design matrix for the rows in the training data set or the folds that act as the training data set
x_i	the vector of predictors in the i^o validation row
w_i	weight for the i^o validation row

Distância de Cook

A distância global, D, do impacto combinado entre todos os coeficientes de regressão estimados em uma observação. O Minitab calcula D usando valores de leverage e resíduos padronizados, e considera se uma observação é incomum no que se refere aos valores x e y. Observações com valores de D grandes podem ser outliers.

Fórmula

A distância de Cook é a distância entre os coeficientes calculados com e sem a i ^a observação. O Minitab calcula a distância de Cook sem ajustar uma nova equação de regressão cada vez que uma observação é omitida. Este cálculo é:

Notação

Termo	Descrição
e_i	i ^o resíduo
h_i	i ^o elemento diagonal de
p	número de parâmetros do modelo, incluindo a constante
s ²	quadrado médio do erro
b	vetor do coeficiente
b_(i)	vetor de coeficientes calculados depois de excluir a i ^a observação
X	matriz de planejamento

DFITS

Combina valores de leverage e de resíduos estudentizados (resíduos t excluídos) em uma medida geral de como é uma observação incomum. DFITS mede a influência de cada observação sobre os valores ajustados em uma regressão e modelo ANOVA. Observações com valores de DFITS grandes podem ser outliers.

DFITS representa aproximadamente o número de desvios padrão que o valor ajustado muda quando cada observação é removida do conjunto de dados e o modelo é reajustado. O Minitab pode calcular o DFITS sem ajustar uma nova equação de regressão cada vez que uma observação é omitida.

Fórmula

Notação

Termo	Descrição
e_i	i ^o resíduo
h_i	i ^o elemento diagonal de
X	matriz de planejamento
	i ^ésima resposta ajustada
	valor ajustado calculado sem a i ^a observação
MSE_(i)	erro de quadrado médio calculado sem a i ^a observação
n	número de observações
p	número de parâmetros modelo

Fator de inflação de variância (VIF)

O VIF pode ser obtido pela regressão de cada preditor sobre os preditores restantes e observando-se o valor de R².

Fórmula

Para a preditora x_j, o VIF é:

Notação

Termo	Descrição
R²( x_j)	coeficiente de determinação com x_j como a variável de resposta e os outros termos no modelo como as preditoras

Estatística de Durbin-Watson

Testes para a presença de autocorrelação nas residuais ao determinar se o não a correlação entre dois termos de erro adjacente é zero. O teste está baseado na suposição de que erros são gerados por um processo autorregressivo de primeira ordem. O Minitab supõe que as observações estão em uma ordem significativa, como ordem de tempo.

Primeiro, o Minitab multiplica os resíduos pela raiz quadrada dos pesos. Se você não usar pesos, o valor dos pesos é 1, e os resíduos ponderados são iguais ao mesmo valor dos resíduos normais.

Os resíduos ponderados são utilizados na seguinte fórmula:

Notação

Termo	Descrição
e_i	i^o resíduo
e_{i -1}	residual para a observação anterior
n	número de observações