Los esquemas de codificación para predictores categóricos

Cuando usted realiza un análisis de regresión con predictores categóricos, Minitab utiliza un esquema de codificación para crear variables indicadoras con el predictor categórico. Cuando los modelos se vuelven más complicados, las interpretaciones son similares. Sin embargo, si usted agrega una covariable o tiene muestras de diferente tamaño dentro de cada grupo, los coeficientes se basan en las medias ponderadas de cada nivel de factor en lugar de basarse en la media aritmética (suma de las observaciones dividida entre n). Por lo general, la interpretación es la misma; sin embargo:
  • Cuando se usa la codificación 1, 0, los coeficientes representan la distancia entre los niveles de los factores y su nivel de referencia.
  • Cuando se usa la codificación 1, 0, -1, los coeficientes representan la distancia entre los niveles de los factores y la media general.

De manera predeterminada, Minitab usa el esquema de codificación (1,0) para la regresión, pero usted puede cambiarlo al esquema de codificación (-1, 0, +1) en el cuadro de diálogo secundario Codificación. Para obtener más información, vaya a Esquemas de codificación para predictores categóricos.

Interpretar los esquemas de codificación para modelos que tienen un factor

Los datos para ejemplos con un factor

En primer lugar, consideremos un diseño balanceado de un factor con tres niveles para el factor.

C1 C2 - T
Respuesta Factor
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

Los estadísticos descriptivos para ejemplos con un factor

Examine los estadísticos descriptivos, concentrándose en las medias.

Descriptive Statistics: Response

Statistics Total Variable Count Mean Response 12 5.000

Descriptive Statistics: Response

Statistics Total Variable Factor Count Mean Response A 4 2.000 B 4 4.500 C 4 8.500

Ejemplo de interpretación del esquema de codificación para un modelo de medias de celdas (0, 1) con un factor

Para obtener la salida, haga lo siguiente:
  1. Elija Estadísticas > Regresión > Regresión > Ajustar modelo de regresión.
  2. En Respuestas, ingrese Respuesta.
  3. En Predictores categóricos, ingrese Factor.
  4. Haga clic en Codificación. En Nivel de referencia, elija C.
  5. Haga clic en Aceptar en cada cuadro de diálogo.

Regression Analysis: Response versus Factor

Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 8.500 0.577 14.72 0.000 Factor A -6.500 0.816 -7.96 0.000 1.33 B -4.000 0.816 -4.90 0.001 1.33
Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 2 86.00 43.000 32.25 0.000 Factor 2 86.00 43.000 32.25 0.000 Error 9 12.00 1.333 Total 11 98.00
Recuerde que las medias de los niveles del factor son:
  • A = 2.0
  • B = 4.5
  • C = 8.5

La ecuación de regresión estimada es:

Regression Analysis: Response versus Factor

Regression Equation Response = 8.500 - 6.500 Factor_A - 4.000 Factor_B + 0.0 Factor_C

El nivel C es el nivel de referencia y, por lo tanto, tiene un coeficiente de 0. En el caso de un solo factor, la intersección es igual a la media del nivel de referencia.

El coeficiente correspondiente al nivel A es –6.5. Es la diferencia que separa al nivel A del nivel de referencia. Si usted toma el coeficiente de A y le suma la intersección (o media de referencia), obtiene la media del nivel A: –6.5 + 8.5 = 2.0

Del mismo modo, el coeficiente correspondiente al nivel B es –4.0. Es la diferencia que separa al nivel B del nivel de referencia. Si usted toma el coeficiente del nivel B y suma la intersección, obtiene la media para el nivel B: –4.0 + 8.5 = 4.5

Ejemplo de interpretación del esquema de codificación para un modelo de efectos de factores (-1, 0, +1) con un factor

Para obtener la siguiente salida:
  1. Elija Estadísticas > Regresión > Regresión > Ajustar modelo de regresión.
  2. En Respuestas, ingrese Respuesta.
  3. En Predictores categóricos, ingrese Factor.
  4. Haga clic en Codificación. En Codificación para predictores categóricos, elija (-1, 0, +1).
  5. Haga clic en Aceptar en cada cuadro de diálogo.

Análisis de regresión: Respuesta vs. Factor

Análisis de Varianza Fuente GL SC Ajust. MC Ajust. Valor F Valor p Regresión 2 86.00 43.000 32.25 0.000 Factor 2 86.00 43.000 32.25 0.000 Error 9 12.00 1.333 Total 11 98.00
Coeficientes EE del Término Coef coef. Valor T Valor p FIV Constante 5.000 0.333 15.00 0.000 Factor A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33
Recuerde la media general y las medias de los niveles del factor:
  • Media general = 5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5

La ecuación de regresión es:

Análisis de regresión: Respuesta vs. Factor

Ecuación de regresión Respuesta = 5.000 - 3.000 Factor_A - 0.500 Factor_B + 3.500 Factor_C
El efecto de cualquier nivel de factor específico es la Media del nivel – Media general. Por lo tanto,
  • Efecto del nivel A = 2.0 - 5.0 = -3.0
  • Efecto del nivel B = 4.5 - 5.0 = -0.5
  • Efecto del nivel C = 8.5 - 5.0 = 3.5

La intersección es la media general.

El coeficiente de A es el efecto del nivel A del factor. Representa la diferencia entre la media del nivel A y la media general.

El coeficiente de B es el efecto del nivel B del factor. Representa la diferencia entre la media del nivel B y la media general.

Para obtener el tamaño del efecto del nivel C, sume todos los coeficientes (excluyendo la intersección) y multiplique por un 1 negativo: -1 * [(-3.0) + (-0.5)] = 3.5

Para obtener las medias de los niveles, tome el tamaño del efecto y súmele la media general:
  • Media del nivel A = coeficiente de A + Intersección = -3.0 + 5.0 = 2.0
  • Media del nivel B = coeficiente de B + Intersección = -0.5 + 5.0 = 4.5
  • Media del nivel C = Intersección - coeficiente de A - coeficiente de B = 5.0 – (- 3.0) – (-0.5) = 5.0 + 3.0 + 0.5 = 8.5

Interpretar los esquemas de codificación para el caso de dos factores

Los datos para ejemplos con dos factores

Ahora consideremos un diseño balanceado de dos factores con tres niveles para el primer factor y dos para el segundo factor.

C1 C2 - T C3 - T
Respuesta Factor 1 Factor 2
1 A Alto
3 A Bajo
2 A Alto
2 A Bajo
4 B Alto
6 B Bajo
3 B Alto
5 B Bajo
8 C Alto
9 C Bajo
7 C Alto
10 C Bajo

Los estadísticos descriptivos para ejemplos con dos factores

Examine los estadísticos descriptivos, concentrándose en las medias.

Tabulated Statistics: Factor 1, Factor 2

Rows: Factor 1 Columns: Factor 2 High Low All A 1.500 2.500 2.000 B 3.500 5.500 4.500 C 7.500 9.500 8.500 All 4.167 5.833 5.000 Cell Contents Response : Mean

Ejemplo de interpretación del esquema de codificación para un modelo de medias de celdas (0, 1) con dos factores

Para obtener la siguiente salida:
  1. Elija Estadísticas > Regresión > Regresión > Ajustar modelo de regresión.
  2. En Respuestas, ingrese Respuesta.
  3. En Predictores categóricos, ingrese Factor 1 y Factor 2.
  4. Haga clic en Codificación. En Codificación para predictores categóricos, elija (1, 0).
  5. En Nivel de referencia, elija C para Factor 1 y Bajo para Factor 2.
  6. Haga clic en Aceptar en cada cuadro de diálogo.

Regression Analysis: Response versus Factor 1, Factor 2

Coefficients Term Coef SE Coef T-Value P-Value VIF Constant 9.333 0.391 23.88 0.000 Factor 1 A -6.500 0.479 -13.58 0.000 1.33 B -4.000 0.479 -8.36 0.000 1.33 Factor 2 High -1.667 0.391 -4.26 0.003 1.00
Analysis of Variance Source DF Adj SS Adj MS F-Value P-Value Regression 3 94.3333 31.4444 68.61 0.000 Factor 1 2 86.0000 43.0000 93.82 0.000 Factor 2 1 8.3333 8.3333 18.18 0.003 Error 8 3.6667 0.4583 Lack-of-Fit 2 0.6667 0.3333 0.67 0.548 Pure Error 6 3.0000 0.5000 Total 11 98.0000
Recuerde que las medias de los niveles del factor son:
  • A = 2.0
  • B = 4.5
  • C = 8.5

La ecuación de regresión estimada es:

Regression Analysis: Response versus Factor 1, Factor 2

Regression Equation Response = 9.333 - 6.500 Factor 1_A - 4.000 Factor 1_B + 0.0 Factor 1_C - 1.667 Factor 2_High + 0.0 Factor 2_Low

Una vez más, el coeficiente correspondiente al nivel A es –6.5. Esta sigue siendo la distancia que separa al nivel A del nivel de referencia (nivel C). Si usted toma la media del nivel A y le resta la media del nivel de referencia, obtendrá el coeficiente: 2 – 8.5 = -6.5.

De igual modo, el coeficiente correspondiente al nivel B sigue siendo –4.0. Es la distancia que separa al nivel B del nivel de referencia para el factor 1. Si usted toma la media del nivel B y le resta la media del nivel de referencia, obtendrá el coeficiente: 4.5 - 8.5 = -4.0.

Finalmente, el coeficiente correspondiente al nivel Alto del factor 2 es la distancia que separa a “Alto” del nivel de referencia para el factor 2 (Bajo). Por lo tanto, si usted toma la media del nivel Alto del factor 2 y le resta la media del nivel de referencia del factor 2, obtendrá el coeficiente: 4.1667 – 5.8333 = -1.667.

Ejemplo de interpretación del esquema de codificación para un modelo de efectos de factores (-1, 0, +1) con dos factores

Para obtener la siguiente salida:
  1. Elija Estadísticas > Regresión > Regresión > Ajustar modelo de regresión.
  2. En Respuestas, ingrese Respuesta.
  3. En Predictores categóricos, ingrese Factor 1 y Factor 2.
  4. Haga clic en Codificación. En Codificación para predictores categóricos, elija (-1, 0, +1).
  5. Haga clic en Aceptar en cada cuadro de diálogo.

Análisis de regresión: Respuesta vs. Factor 1

Análisis de Varianza Fuente GL SC Ajust. MC Ajust. Valor F Valor p Regresión 2 86.00 43.000 32.25 0.000 Factor 1 2 86.00 43.000 32.25 0.000 Error 9 12.00 1.333 Total 11 98.00
Coeficientes EE del Término Coef coef. Valor T Valor p FIV Constante 5.000 0.333 15.00 0.000 Factor 1 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33

Observe que, con este esquema de codificación, los coeficientes no cambiaron con respecto al modelo de un factor. Ahora usted tiene un coeficiente adicional para el segundo factor.

Ahora consideremos la media general y las medias de los niveles del factor:
  • Media general = 5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5
  • Alto = 4.1667
  • Bajo = 5.8333

La ecuación de regresión es:

Análisis de regresión: Respuesta vs. Factor 1

Ecuación de regresión Respuesta = 5.000 - 3.000 Factor 1_A - 0.500 Factor 1_B + 3.500 Factor 1_C
El efecto de cualquier nivel de factor específico es la Media del nivel – Media general. Por lo tanto,
  • Efecto del nivel A = 2.0 - 5.0 = -3.0
  • Efecto del nivel B = 4.5 - 5.0 = -0.5
  • Efecto del nivel C = 8.5 - 5.0 = 3.5
  • Efecto del nivel Alto = 4.1667 – 5.0 = -0.883
  • Efecto del nivel Bajo = 5.8333 – 5.0 = 0.883
Nota

Cuando solo tenga dos niveles y muestras de igual tamaño, el efecto del nivel tendrá la misma magnitud, porque la media está exactamente en el centro.

La intersección es la media general.

Los coeficientes son el efecto para cada nivel del factor. Representan la diferencia entre la media de ese nivel y la media general.