Os esquemas de codificação para preditores categóricos

Quando você efetua uma análise de regressão com preditores categóricos, o Minitab usa um esquema de codificação para obter variáveis indicadoras do preditor categórico. Quando os modelos se tornam mais complicados, as interpretações são similares. Entretanto, se você adicionar uma covariável ou houver tamanhos amostrais desiguais dentro de cada grupo, os coeficientes são baseados em médias ponderadas para cada nível de fator ao invés da média aritmética (soma das observações dividida por n). A interpretação, porém, é geralmente a mesma:
  • Usando codificação 1, 0, os coeficientes representam a distância entre níveis de fatores e seu nível de referência.
  • Usando codificação 1, 0, 1, os coeficientes representam a distância entre níveis de fatores e a média geral.

Por padrão, o Minitab usa o esquema de codificação (1, 0) para regressão, mas você pode optar por usar o esquema de codificação (-1, 0, +1) na subcaixa de diálogo Codificando. Para obter mais informações, vá para Esquemas de codificação para preditores categóricos.

Interpretar esquemas de codificação para modelos com um fator

Dados para exemplos com um fator

Primeiro, considere um experimento balanceado com um fator e com três níveis para o fator.

C1 C2 - T
Resposta Fator
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

As estatísticas descritivas para exemplos com um fator

Examine as estatísticas descritivas, concentrando-se nas médias.

Estatísticas Descritivas: Resposta

Estatísticas Contagem Variável Total Média Resposta 12 5,000

Estatísticas Descritivas: Resposta

Estatísticas Contagem Variável Fator Total Média Resposta A 4 2,000 B 4 4,500 C 4 8,500

Exemplo de interpretação do esquema de codificação para um modelo de médias de células (0, 1) com um fator

Para obter a saída, siga este procedimento:
  1. Selecione Estat > Regressão > Regressão > Ajuste do modelo de regressão.
  2. Em Respostas, insira Resposta.
  3. Em Preditores categóricos, insira Fator.
  4. Clique em Codificando. Em Nível de referência, selecione C.
  5. Clique em OK em cada caixa de diálogo.

Análise de Regressão: Resposta versus Fator

Coeficientes EP de Termo Coef Coef Valor-T Valor-P VIF Constante 8,500 0,577 14,72 0,000 Fator A -6,500 0,816 -7,96 0,000 1,33 B -4,000 0,816 -4,90 0,001 1,33
Análise de Variância Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P Regressão 2 86,00 43,000 32,25 0,000 Fator 2 86,00 43,000 32,25 0,000 Erro 9 12,00 1,333 Total 11 98,00
Lembre que as médias dos níveis dos fatores são:
  • A = 2,0
  • B = 4,5
  • C = 8,5

A equação de regressão estimada é:

Análise de Regressão: Resposta versus Fator

Equação de Regressão Resposta = 8,500 - 6,500 Fator_A - 4,000 Fator_B + 0,0 Fator_C

Nível C é a referência, e por isso possui coeficiente 0. No caso de somente um fator, a interceptação é igual à média do nível de referência.

O coeficiente correspondente ao nível A é -6,5. Ele é a diferença entre o nível A e o nível de referência. Se você tomar o coeficiente para A e adicionar a interceptação (ou média de referência) a ele, você obterá a média para o nível A: -6,5 + 8,5 = 2,0.

Da mesma forma, o coeficiente correspondente ao nível B é -4,0. Ele é a diferença entre o nível B e o nível de referência. Se você tomar o coeficiente para B e adicionar a interceptação, você obterá a média para o nível B: -4,0 + 8,5 = 4,5.

Exemplo de interpretação do esquema de codificação para um modelo de efeitos de fatores (-1, 0, +1) com um fator

Para obter esta saída:
  1. Selecione Estat > Regressão > Regressão > Ajuste do modelo de regressão.
  2. Em Respostas, insira Resposta.
  3. Em Preditores categóricos, insira Fator.
  4. Clique em Codificando. Em Codificação para preditores categóricos, selecione (-1, 0, +1).
  5. Clique em OK em cada caixa de diálogo.

Análise de Regressão: Resposta versus Fator

Análise de Variância Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P Regressão 2 86,00 43,000 32,25 0,000 Fator 2 86,00 43,000 32,25 0,000 Erro 9 12,00 1,333 Total 11 98,00
Coeficientes EP de Termo Coef Coef Valor-T Valor-P VIF Constante 5,000 0,333 15,00 0,000 Fator A -3,000 0,471 -6,36 0,000 1,33 B -0,500 0,471 -1,06 0,316 1,33
Lembre a média geral e as médias dos níveis dos fatores:
  • Média Geral = 5,0
  • A = 2,0
  • B = 4,5
  • C = 8,5

A equação de regressão é:

Análise de Regressão: Resposta versus Fator

Equação de Regressão Resposta = 5,000 - 3,000 Fator_A - 0,500 Fator_B + 3,500 Fator_C
O efeito para qualquer nível de fator específico é a Média do Nível. Assim,
  • Efeito do nível A = 2,0 - 5,0 = -3,0
  • Efeito do nível B = 4,5 - 5,0 = -0,5
  • Efeito do nível C = 8,5 - 5,0 = 3,5

A interceptação é a média geral.

O coeficiente para A é o efeito para o nível de fator A. Ele é a diferença entre a média para o nível A e a média geral.

O coeficiente para B é o efeito para o nível de fator B. Ele é a diferença entre a média para o nível B e a média geral.

Você pode obter o tamanho do efeito para o nível C somando todos os coeficientes (excluindo a interceptação) e multiplicando por 1 negativo: -1 * [(-3,0) + (-0,5)] = 3,5

Você pode obter as médias dos níveis adicionando a média geral ao tamanho do efeito:
  • Média para o nível A = coeficiente para A + Interceptação = -3,0 + 5,0 = 2,0
  • Média para o nível B = coeficiente para B + Interceptação = -0,5 + 5,0 = 4,5
  • Média para o nível C = Interceptação - coeficiente para A - coeficiente para B = 5,0 - (-3,0) - (-0,5) = 5,0 + 3,0 + 0,5 = 8,5

Interpretar esquemas de codificação para o caso de dois fatores

dados para exemplos com dois fatores

Agora considere um experimento fatorial balanceado com dois fatores e com três níveis para o primeiro fator e dois níveis para o segundo fator.

C1 C2 - T C3 - T
Resposta fator 1 fator 2
1 A Alto
3 A Baixo
2 A Alto
2 A Baixo
4 B Alto
6 B Baixo
3 B Alto
5 B Baixo
8 C Alto
9 C Baixo
7 C Alto
10 C Baixo

As estatísticas descritivas para exemplos com dois fatores

Examine as estatísticas descritivas, concentrando-se nas médias.

Estatísticas Tabuladas: Fator 1; Fator 2

Linhas: Fator 1 Colunas: Fator 2 Alto Baixo Todos A 1,500 2,500 2,000 B 3,500 5,500 4,500 C 7,500 9,500 8,500 Todos 4,167 5,833 5,000 Conteúdo da Célula Resposta : Média

Exemplo de interpretação do esquema de codificação para um modelo de médias de células (0, 1) com dois fatores

Para obter esta saída:
  1. Selecione Estat > Regressão > Regressão > Ajuste do modelo de regressão.
  2. Em Respostas, insira Resposta.
  3. Em Preditores categóricos, insira Fator 1 e Fator 2.
  4. Clique em Codificando. Em Codificação para preditores categóricos, selecione (1, 0).
  5. Sob Nível de referência, selecione C para Fator 1 e Baixo para Fator 2.
  6. Clique em OK em cada caixa de diálogo.

Análise de Regressão: Resposta versus Fator 1; Fator 2

Coeficientes EP de Termo Coef Coef Valor-T Valor-P VIF Constante 9,333 0,391 23,88 0,000 Fator 1 A -6,500 0,479 -13,58 0,000 1,33 B -4,000 0,479 -8,36 0,000 1,33 Fator 2 Alto -1,667 0,391 -4,26 0,003 1,00
Análise de Variância Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P Regressão 3 94,3333 31,4444 68,61 0,000 Fator 1 2 86,0000 43,0000 93,82 0,000 Fator 2 1 8,3333 8,3333 18,18 0,003 Erro 8 3,6667 0,4583 Falta de ajuste 2 0,6667 0,3333 0,67 0,548 Erro puro 6 3,0000 0,5000 * * Total 11 98,0000
Lembre que as médias dos níveis dos fatores são:
  • A = 2,0
  • B = 4,5
  • C = 8,5

A equação de regressão estimada é:

Análise de Regressão: Resposta versus Fator 1; Fator 2

Equação de Regressão Resposta = 9,333 - 6,500 Fator 1_A - 4,000 Fator 1_B + 0,0 Fator 1_C - 1,667 Fator 2_Alto + 0,0 Fator 2_Baixo

Novamente, o coeficiente correspondente ao nível A é -6,5. Isso ainda é a diferença entre o nível A e o nível de referência (Nível C). Se você tomar a média para o nível A e subtrair a média para o nível de referência, você obterá o coeficiente: 2 - 8,5 = -6,5.

Da mesma forma, o coeficiente correspondente ao nível B ainda é -4,0. Isso é a distância entre o nível B e o nível de referência para o fator 1. Se você tomar a média para o nível B e subtrair a média para o nível de de referência, você obterá o coeficiente: 4,5 - 8,5 = - 4,0.

Finalmente, o coeficiente que corresponde ao nível Alto para o fator 2 é a distância entre "Alto" e o nível de referência para o fator 2 (Baixo). Assim, se você tomar a média para o nível "Alto" do fator 2 e subtrair a média para o nível de de referência para o fator 2, você obterá o coeficiente: 4,1667 - 5,8333 = - 1,667.

Exemplo de interpretação do esquema de codificação para um modelo de efeitos de fatores (-1, 0, +1) com dois fatores

Para obter esta saída:
  1. Selecione Estat > Regressão > Regressão > Ajuste do modelo de regressão.
  2. Em Respostas, insira Resposta.
  3. Em Preditores categóricos, insira Fator 1 e Fator 2.
  4. Clique em Codificando. Em Codificação para preditores categóricos, selecione (-1, 0, +1).
  5. Clique em OK em cada caixa de diálogo.

Análise de Regressão: Resposta versus Fator 1

Análise de Variância Fonte GL SQ (Aj.) QM (Aj.) Valor F Valor-P Regressão 2 86,00 43,000 32,25 0,000 Fator 1 2 86,00 43,000 32,25 0,000 Erro 9 12,00 1,333 Total 11 98,00
Coeficientes EP de Termo Coef Coef Valor-T Valor-P VIF Constante 5,000 0,333 15,00 0,000 Fator 1 A -3,000 0,471 -6,36 0,000 1,33 B -0,500 0,471 -1,06 0,316 1,33

Observe que, com este esquema de codificação, os coeficientes não mudaram em relação ao modelo com um fator. Você agora tem um coeficiente adicional para o segundo fator.

Agora considere a média geral e as médias dos níveis dos fatores:
  • Média Geral = 5,0
  • A = 2,0
  • B = 4,5
  • C = 8,5
  • Alto = 4,1667
  • Baixo = 5,8333

A equação de regressão é:

Análise de Regressão: Resposta versus Fator 1

Equação de Regressão Resposta = 5,000 - 3,000 Fator 1_A - 0,500 Fator 1_B + 3,500 Fator 1_C
O efeito para qualquer nível de fator específico é a Média do Nível. Assim,
  • Efeito do nível A = 2,0 - 5,0 = -3,0
  • Efeito do nível B = 4,5 - 5,0 = -0,5
  • Efeito do nível C = 8,5 - 5,0 = 3,5
  • Efeito do nível Alto = 4,1667 – 5,0 = -0,883
  • Efeito do nível Baixo = 5,8333 – 5,0 = 0,883
Observação

Quando você tem somente dois níveis e tamanhos amostrais iguais, o efeito do nível será igual em magnitude porque a média está exatamente no centro.

A interceptação é a média geral.

Os coeficientes são o efeito para cada nível de fator. Eles representam a diferença entre a média para o nível e a média geral.