Un coeficiente de regresión describe el tamaño de la relación entre un predictor y la variable de respuesta. Los coeficientes son los números por los cuales se multiplican los valores del término en una ecuación de regresión.
El coeficiente para un término representa el cambio en la respuesta media asociada con un cambio en el término, en tanto que los otros términos en el modelo se mantienen constantes. El signo del coeficiente indica la dirección de la relación entre el término y la respuesta. El tamaño del coeficiente es generalmente una buena manera de evaluar la significancia práctica del efecto que un término tiene en la variable de respuesta. Sin embargo, el tamaño del coeficiente no indica si un término es estadísticamente significativo porque los cálculos de significancia también consideran la variación en los datos de respuesta. Para determinar la significancia estadística, examine el valor p del término.
El coeficiente del término representa el cambio en la respuesta media para un cambio de una unidad en ese término. Si el coeficiente es negativo, a medida que el término aumenta, el valor medio de la respuesta disminuye. Si el coeficiente es positivo, a medida que el término aumenta, el valor medio de la respuesta se incrementa.
Por ejemplo, un gerente determina que la puntuación de un empleado en una prueba de aptitudes laborales se puede predecir utilizando el modelo de regresión, y = 130 + 4.3x1 +10.1x2. En la ecuación, X1 se refiere a las horas de capacitación en el hogar (de 0 a 20) y Y es la puntuación de la prueba. La variable x2 es una variable categórica que equivale a 1 si el empleado tiene un mentor y 0 si el empleado no tiene un mentor. La respuesta es Y y es la puntuación de la prueba. El coeficiente para la variable continua de las horas de capacitación es de 4.3, lo cual indica que por cada hora de capacitación la puntuación media de la prueba aumenta en 4.3 puntos. Utilizando el esquema de codificación (0,1), el coeficiente de la variable categórica de la instrucción indica que los empleados con mentores tienen puntuaciones que son un promedio de 10.1 puntos mayor que la de los empleados que no tienen mentores.
Minitab puede ajustar los modelos lineales utilizando una variedad de esquemas de codificación para variables continuas en el modelo. Estos esquemas de codificación pueden mejorar el proceso de estimación y la interpretación de los resultados. Además, las unidades codificadas pueden cambiar los resultados de las pruebas estadísticas utilizadas para determinar si cada término es un predictor significativo de la respuesta. Cuando un modelo utiliza unidades codificadas, el análisis produce coeficientes codificados.
El error estándar del coeficiente estima la variabilidad entre las estimaciones del coeficiente que se obtendrían si se tomara las muestras de la misma población una y otra vez. El cálculo asume que el tamaño de la muestra y los coeficientes a estimar se mantendrían iguales si se tomara la muestra una y otra vez.
Utilice el error estándar del coeficiente para medir la precisión de la estimación del coeficiente. Cuanto menor sea el error estándar, más precisa será la estimación. Al dividir el coeficiente entre su error estándar, se calcula un valor t.. Si el valor p asociado con este estadístico t es menor que el nivel de significancia, se concluye que el coeficiente es estadísticamente significativo.
Por ejemplo, los técnicos estiman un modelo para insolación como parte de una prueba de energía solar térmica:
Término | Coef | EE del coef. | Valor T | Valor p | FIV |
---|---|---|---|---|---|
Constante | 809 | 377 | 2.14 | 0.042 | |
Sur | 20.81 | 8.65 | 2.41 | 0.024 | 2.24 |
Norte | -23.7 | 17.4 | -1.36 | 0.186 | 2.17 |
Hora del día | -30.2 | 10.8 | -2.79 | 0.010 | 3.86 |
En este modelo, Norte y Sur miden la posición de un punto focal en pulgadas. Los coeficientes para Norte y Sur son similares en magnitud. El error estándar del coeficiente para Sur es más pequeño que el error estándar del coeficiente para Norte. Por lo tanto, el modelo pudo estimar el coeficiente para Sur con mayor precisión.
El error estándar del coeficiente Norte es casi tan grande como el valor del coeficiente mismo. El valor p resultante es mayor que los niveles comunes del nivel de significancia, de manera que no se puede concluir que el coeficiente para Norte es diferente de 0.
Aunque el coeficiente para Sur está más cerca de 0 que el coeficiente para Norte, el error estándar del coeficiente para Sur es también más pequeño. El valor p resultante es más pequeño que los niveles de significancia comunes. Puesto que la estimación del coeficiente para Sur es más precisa, se puede concluir que el coeficiente para Sur es diferente de 0.
La significancia estadística es un criterio que se puede utilizar para reducir un modelo en regresión múltiple. Para obtener más información, vaya a Reducción del modelo.
Estos intervalos de confianza (IC) son rangos de valores que es probable que contengan el verdadero valor del coeficiente para cada término incluido en el modelo.
Puesto que las muestras son aleatorias, es poco probable que dos muestras de una población produzcan intervalos de confianza idénticos. Sin embargo, si toma muchas muestras aleatorias, un determinado porcentaje de los intervalos de confianza resultantes incluirá el parámetro de población desconocido. El porcentaje de estos intervalos de confianza que contiene el parámetro es el nivel de confianza del intervalo.
Utilice el intervalo de confianza para evaluar la estimación del coeficiente de la población para cada término en el modelo.
Por ejemplo, con un nivel de confianza de 95 %, se puede estar un 95 % seguro de que el intervalo de confianza contiene el valor del coeficiente para la población. El intervalo de confianza ayuda a evaluar la significancia práctica de los resultados. Utilice el conocimiento especializado para determinar si el intervalo de confianza incluye valores que tienen significancia práctica para su situación. Si el intervalo es demasiado amplio para ser útil, considere aumentar el tamaño de la muestra.
El valor t mide la relación entre el coeficiente y su error estándar.
Minitab utiliza el valor t para calcular el valor p, que se utiliza para comprobar si el coeficiente es significativamente diferente de 0.
Usted puede utilizar el valor t para determinar si puede rechazar la hipótesis nula. Sin embargo, el valor p se utiliza con más frecuencia, porque el valor umbral para el rechazo de la hipótesis nula no depende de los grados de libertad. Para obtener más información sobre cómo usar el valor t, vaya a Uso del valor t para determinar si se puede rechazar la hipótesis nula.
El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula. Las probabilidades más bajas proporcionan una evidencia más fuerte en contra de la hipótesis nula.
El factor de inflación de la varianza (FIV) indica cuánto se infla la varianza de un coeficiente debido a las correlaciones entre los predictores incluidos en el modelo.
Utilice los FIV para describir cuánta multicolinealidad (que es la correlación entre los predictores) existe en un análisis de regresión. La multicolinealidad es problemática porque puede aumentar la varianza de los coeficientes de regresión, lo que hace difícil evaluar el impacto individual que cada uno de los predictores correlacionados tiene sobre la respuesta.
FIV | Estado del predictor |
---|---|
FIV = 1 | No correlacionados |
1 < FIV < 5 | Moderadamente correlacionados |
FIV > 5 | Altamente correlacionados |
Para obtener más información sobre la multicolinealidad y sobre cómo mitigar los efectos de la multicolinealidad, revise Multicolinealidad en la regresión.