Métodos para Ajuste do modelo de regressão e Régression linéaire

Selecione o método ou a fórmula de sua escolha.

Neste tópico

Regressão ponderada
Transformação Box-Cox
Equação de Regressão
Matriz de experimento
x'x inversa
Como o Minitab remove preditores fortemente correlacionados da equação de regressão no Ajuste do modelo de regressão

Regressão ponderada

A regressão de mínimos quadrados ponderada é um método para lidar com as observações que têm variâncias não constantes. Se as variâncias são não constantes, observações com:

grandes variâncias devem ser dadas em relação a pesos pequenos
pequenas variâncias devem ser dadas em relação a pesos grandes

A escolha comum de pesos é o inverso da variância do erro puro na resposta.

A fórmula para os coeficientes estimados é como se segue:

Isso é equivalente a minimizar o Erro SS ponderado

Notação

Termo	Descrição
X	matriz do experimento
X'	transposição da matriz do experimento
W	uma matriz n x n com os pesos na diagonal
Y	vetor de valores de resposta
n	número de observações
w_i	peso para a i^a observação
y_i	valor da resposta para a i^a observação
	valor ajustado para a i^a observação

Transformação Box-Cox

A transformação de Box-Cox seleciona valores de lambda, conforme mostrado a seguir, que minimizam a soma dos quadrados dos resíduos. A transformação resultante é Y ^λ quando λ ≠ 0 e ln(Y) quando λ = 0. Quando λ < 0, o Minitab também multiplica a resposta transformada por -1 para manter a ordem da resposta não transformada.

O Minitab pesquisa um valor ideal entre −2 e 2. Os valores que estão fora desse intervalo podem não resultar em um ajuste melhor.

A seguir estão algumas transformações comuns onde Y é a transformação dos dados Y:

Valor lambda (λ)	Transformação
λ = 2	Y′ = Y ²
λ = 0,5	Y′ =
λ = 0	Y′ = ln(Y )
λ = −0,5
λ = −1	Y′ = −1 / Y

Equação de Regressão

Para um modelo com múltiplos preditores, a equação é:

y = β₀ + β₁x₁ + ... + β_kx_k + ε

A equação ajustada é:

Na regressão linear simples, que inclui somente um preditor, o modelo é:

y=ß₀+ ß₁x₁+ε

Usando estimativas de regressão b₀ para ß₀, e b₁ para ß₁, a equação ajustada é:

Equações com variável categórica

Quando você inclui uma variável categórica em um modelo de regressão, há 2 opções para exibir a equação de regressão:

Equação separada de cada conjunto de níveis de preditor categórico
Equação única

Essas duas opções são equivalentes. Por exemplo, suponha que os dados tenham as seguintes variáveis:

C1: A variável resposta
C2: Um preditor contínuo
C3: Uma variável preditora categórica com os níveis Vermelho e Azul

As equações separadas são as seguintes:

Azul: C1 = 0,184 + 0,1964*C2
Vermelho: C1 = 0,011 + 0,1964*C2

Uma única equação usa uma variável indicadora para representar a variável categórica.

C1 = 0,184 + 0,1964*C2 + 0,0*C3_Azul- 0,173*C3_Vermelho

Na única equação, C3_Azul é igual a 1 se a observação for azul, e 0 caso contrário. C3_Vermelho é igual a 1 se a observação for vermelha, e 0 caso contrário. Para cada grupo, substitua-se a variável indicadora para verificar se a única equação é igual às duas equações separadas.

Observação azul (C3_Azul = 1, C3_Vermelho = 0): C1 = 0,184 + 0,1964*C2 + 0,0*1 - 0,173*0 = 0,184 + 0,1964*C2
Observação vermelha (C3_Azul = 0, C3_Vermelho = 1: C1 = 0,084 + 0,1964*C2 + 0,0*0 - 0,173*1 = 0,011 + 0,1964*C2

Notação

Termo	Descrição
y	resposta
x_k	Ok^{, no termo} . Cada termo pode ser um único preditor, um termo polinomial ou um termo de interação.
ß_k	k^ésimo coeficiente de regressão populacional
ε	termo de erro que segue uma distribuição normal com uma média de 0
b_k	Estimativa do k^ésimo coeficiente de regressão populacional
	resposta ajustada

Matriz de experimento

A matriz de experimento contém as preditoras em uma matriz (X) com n setas, onde n é o número de observações. Há uma coluna para cada coeficiente no modelo.

As preditoras categóricas são codificadas usando-se as codificações 1, 0 ou -1, 0, 1. X não inclui uma coluna para o nível de referência do fator.

Para calcular as colunas para um termo de interação, multiplique todos os valores correspondentes para as preditoras na interação. Por exemplo, suponha que a primeira observação tenha um valor de 4 para a preditora A e um valor de 2 para a preditora B. Na matriz de experimento, a interação entre A e B está representada como 8 (4 x 2).

x'x inversa

Uma matriz p x p, onde p é o número de coeficientes no modelo. Multiplicar x'x inversa pelo MSE produz a matriz de variância-covariância dos coeficientes. O Minitab também usa a x'x inversa para calcular os coeficientes de regressão e a matriz chapéu.

Como o Minitab remove preditores fortemente correlacionados da equação de regressão no Ajuste do modelo de regressão

Seja r_ij o elemento na matriz de varredura atual associada a X_i e X_j.

As variáveis são inseridas ou removidas, uma de cada vez. X_k é elegível para entrada se for uma variável independente que não está atualmente no modelo com r _kk ≥ 1 (tolerância com um padrão de 0,0001) e também para cada variável X_j que está atualmente no modelo,

Para remover preditores fortemente correlacionados da equação de regressão, o Minitab executa as seguintes etapas:

O Minitab executa o método SWEEP na matriz de correlação, R, tratando X₁ .. X_p como se fossem variáveis aleatórias.
Para qualquer preditor contínuo, o Minitab compara o elemento r_kk com a tolerância; r_kk ≥ tolerância, onde k = 1 a p.
Para cada variável X_j atualmente no modelo, o Minitab verifica que (r_jj - r_jk * (r_kj / r_kk))*tolerância ≤ 1.
Observação
Onde r_kk, r_jk, r_jj são os elementos diagonais e off-diagonal correspondentes para as variáveis X_j e X_k após as operações k passo SWEEP.
Caso contrário, o preditor falhará no teste e será removido do modelo.
Observação
O valor de tolerância padrão é 8.8e - 12.

Observação

Você pode usar o subcomando TOLERANCE com o comando de sessão REGRESS para forçar o Minitab a manter um preditor altamente correlacionado com outro preditor no modelo. Entretanto, diminuir a tolerância pode ser perigoso, e pode produzir resultados numericamente inexatos.