Coeficientes y ecuación de regresión para Ajustar modelo logístico binarioy Regresión logística binaria

Encuentre definiciones y ayuda para interpretar cada uno de los estadísticos incluidos en la tabla Coeficientes y la ecuación de regresión.

Coef

Un coeficiente de regresión describe el tamaño de la relación entre un predictor y la variable de respuesta. Los coeficientes son los números por los cuales se multiplican los valores del término en una ecuación de regresión.

Interpretación

Utilice el coeficiente para determinar si un cambio en una variable predictora hace que el evento sea más o menos probable. El coeficiente estimado para un predictor representa el cambio en la función de enlace por cada cambio de una unidad en el predictor, mientras los demás predictores incluidos en el modelo se mantienen constantes. La relación entre el coeficiente y la probabilidad depende de varios aspectos del análisis, incluyendo la función de enlace, el evento de referencia para la respuesta y los niveles de referencia para los predictores categóricos que están en el modelo. Por lo general, los coeficientes positivos hacen que el evento sea más probable y los coeficientes negativos hacen que el evento sea menos probable. Un coeficiente estimado cercano a 0 implica que el efecto del predictor es pequeño.

La interpretación de los coeficientes estimados para los predictores categóricos está relacionada con el nivel de referencia del predictor. Los coeficientes positivos indican que el evento es más probable al nivel del predictor que al nivel de referencia del factor. Los coeficientes negativos indican que el evento es menos probable al nivel del predictor que al nivel de referencia.

Interpretación para la función de enlace logit

El enlace logit ofrece la interpretación más natural de los coeficientes estimados y, por lo tanto, es el enlace predeterminado en Minitab. La interpretación utiliza el hecho de que las probabilidades de un evento de referencia son P(evento)/P(no evento) y presupone que los otros predictores permanecen constantes. Cuanto mayor sean las probabilidades logarítmicas, más probable será el evento de referencia. Por lo tanto, los coeficientes positivos indican que el evento se vuelve más probable y los coeficientes negativos indican que el evento se vuelve menos probable. El siguiente es un resumen de las interpretaciones de los diferentes tipos de predictores.

Predictores continuos
El coeficiente de un predictor continuo es el cambio estimado en el logaritmo natural de las probabilidades para el evento de referencia por cada incremento de una unidad en el predictor. Por ejemplo, si el coeficiente de tiempo en segundos es 1.4, entonces el logaritmo natural de las probabilidades aumenta en 1.4 por cada segundo adicional.
Los coeficientes estimados también se pueden utilizar para calcular las relaciones de probabilidades o la relación entre dos probabilidades. Para calcular la relación de probabilidades, eleve a una potencia el coeficiente de un predictor. El resultado es la relación de probabilidades para cuando el predictor sea x+1, en comparación con cuando el predictor sea x. Por ejemplo, si la relación de probabilidades para masa en kilogramos es 0.95, entonces por cada kilogramo adicional, la probabilidad del evento disminuye alrededor de 5%.
Para predictores continuos, la interpretación de las probabilidades puede ser más significativa que la interpretación de la relación de probabilidades.
Predictores categóricos con codificación 1, 0
El coeficiente es el cambio estimado en el logaritmo natural de las probabilidades cuando se cambia del nivel de referencia al nivel del coeficiente. Por ejemplo, una variable categórica tiene los niveles Rápido y Lento, y el nivel de referencia es Lento. Si el coeficiente de Rápido es 1.3, entonces un cambio en la variable de Lento a Rápido hace que el logaritmo natural de las probabilidades del evento aumente en 1.3.
Los coeficientes estimados también se pueden utilizar para calcular la relación de probabilidades o la relación entre dos probabilidades. Para calcular la relación de probabilidades, eleve a una potencia el coeficiente de un nivel. El resultado es la relación de probabilidades para el nivel en comparación con el nivel de referencia. Por ejemplo, una variable categórica tiene los niveles Duro y Suave, y el nivel de referencia es Suave. Si la relación de probabilidades de Duro es 0.5, entonces el cambio de Suave a Duro hace que las probabilidades del evento disminuyan en 50%.
Predictores categóricos con codificación 1, 0, −1
El coeficiente es el cambio estimado en el logaritmo natural de las probabilidades cuando se cambia de la media del logaritmo natural de las probabilidades al nivel del coeficiente. Por ejemplo, una variable categórica tiene los niveles Antes del cambio y Después del cambio. Si el coeficiente de Después del cambio es −2.1, entonces el logaritmo natural de las probabilidades del evento disminuye en 2.1 con respecto al promedio cuando la variable es igual a Después de cambio.
Los coeficientes estimados también se pueden utilizar para calcular las relaciones de probabilidades. Para hallar el valor para la exponenciación, reste los coeficientes que desea comparar. Por ejemplo, una variable categórica tiene los niveles Rojo, Amarillo y Verde. Para calcular la relación de probabilidades para Rojo y Amarillo, reste el coeficiente de Rojo al coeficiente de Amarillo y luego eleve a una potencia el resultado. Si la relación es 1.02, entonces el cambio de Rojo a Amarillo hace que las probabilidades del evento aumenten en 2%.

EE Coef

El error estándar del coeficiente estima la variabilidad entre las estimaciones del coeficiente que se obtendrían si se tomara las muestras de la misma población una y otra vez. El cálculo asume que el tamaño de la muestra y los coeficientes a estimar se mantendrían iguales si se tomara la muestra una y otra vez.

Interpretación

Utilice el error estándar del coeficiente para medir la precisión de la estimación del coeficiente. Cuanto menor sea el error estándar, más precisa será la estimación.

Intervalo de confianza para el coeficiente (IC de 95%)

Estos intervalos de confianza (IC) son rangos de valores que es probable que contengan el verdadero valor del coeficiente para cada término incluido en el modelo. El cálculo de los intervalos de confianza utiliza la distribución normal. El intervalo de confianza es exacto si el tamaño de la muestra es lo suficientemente grande como para que la distribución del coeficiente de la muestra siga una distribución normal.

Puesto que las muestras son aleatorias, es poco probable que dos muestras de una población produzcan intervalos de confianza idénticos. Sin embargo, si toma muchas muestras aleatorias, un determinado porcentaje de los intervalos de confianza resultantes incluirá el parámetro de población desconocido. El porcentaje de estos intervalos de confianza que contiene el parámetro es el nivel de confianza del intervalo.

El intervalo de confianza consta de las dos partes siguientes:
Estimación de punto
Este valor individual estima un parámetro de población usando los datos de la muestra. El intervalo de confianza está centrado alrededor de la estimación de punto.
Margen de error
El margen de error define el ancho del intervalo de confianza y es determinado por la variabilidad observada en la muestra, el tamaño de la muestra y el nivel de confianza. Para calcular el límite superior del intervalo de confianza, el margen de error se suma a la estimación de punto. Para calcular el límite inferior del intervalo de confianza, el margen de error se resta de la estimación de punto.

Interpretación

Utilice el intervalo de confianza para evaluar la estimación del coeficiente de la población para cada término en el modelo.

Por ejemplo, con un nivel de confianza de 95 %, se puede estar un 95 % seguro de que el intervalo de confianza contiene el valor del coeficiente para la población. El intervalo de confianza ayuda a evaluar la significancia práctica de los resultados. Utilice el conocimiento especializado para determinar si el intervalo de confianza incluye valores que tienen significancia práctica para su situación. Si el intervalo es demasiado amplio para ser útil, considere aumentar el tamaño de la muestra.

Valor Z

El valor Z es un estadístico de prueba para las pruebas de Wald que mide la relación entre el coeficiente y su error estándar.

Interpretación

Minitab utiliza el valor Z para calcular el valor p, que se usa para tomar una decisión acerca de la significancia estadística de los términos y el modelo. La prueba de Wald es exacta cuando el tamaño de la muestra es lo suficientemente grande como para que la distribución de los coeficientes de la muestra siga una distribución normal.

Un valor Z que esté lo suficientemente lejos de 0 indica que la estimación del coeficiente es lo suficientemente grande y precisa como para ser significativamente diferente de 0. En cambio, un valor Z pequeño que está cerca de 0 indica que la estimación del coeficiente es demasiado pequeña o demasiado imprecisa como para asegurar que el término tiene un efecto significativo sobre la respuesta.

Las pruebas en la tabla Desviación son pruebas de relación de probabilidad. La prueba en la muestra expandida de la tabla Coeficientes son pruebas de aproximación de Wald. Las pruebas de relación de probabilidad son más exactas para las muestras pequeñas que las pruebas de aproximación de Wald.

Valor p

El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula. Las probabilidades más bajas proporcionan una evidencia más fuerte en contra de la hipótesis nula.

Interpretación

Para determinar si la asociación entre la respuesta y cada término en el modelo es estadísticamente significativa, compare el valor p del término con su nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que el coeficiente del término es igual a cero, lo que implica que no hay asociación entre el término y la respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0,05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real.
Valor p ≤ α: La asociación es estadísticamente significativa
Si el valor p es menor que o igual al nivel de significancia, usted puede concluir que hay una asociación estadísticamente significativa entre la variable de respuesta y el término.
Valor p > α: La asociación no es estadísticamente significativa
Si el valor p es mayor que el nivel de significancia, usted no puede concluir que existe una asociación estadísticamente significativa entre la variable de respuesta y el término. Le convendría reajustar el modelo sin el término.
Si hay múltiples predictores sin una asociación estadísticamente significativa con la respuesta, usted puede reducir el modelo eliminando términos uno a la vez. Para obtener más información sobre cómo eliminar términos del modelo, vaya a Reducción del modelo.
Si un término del modelo es estadísticamente significativo, la interpretación depende del tipo de término. Las interpretaciones son las siguientes:
  • Si un predictor continuo es significativo, usted puede concluir que el coeficiente del predictor es diferente de cero.
  • Si un predictor categórico es significativo, la conclusión depende de la codificación de la variable categórica. Con la codificación (0, 1), usted puede concluir que la probabilidad de ese ese nivel es diferente de la probabilidad del nivel de referencia. Con la codificación (-1, 0, +1), puede concluir que la probabilidad de ese nivel es diferente de la probabilidad de línea base.
  • Si un término de interacción es significativo, usted puede concluir que la relación entre un predictor y la probabilidad del evento depende del resto de los predictores en el término.
  • Si un término polinómico es significativo, usted puede concluir que la relación entre un predictor y la probabilidad del evento depende de la magnitud del predictor.

FIV

El factor de inflación de la varianza (FIV) indica qué tanto está inflada la varianza de un coeficiente debido a la multicolinealidad.

Interpretación

Utilice el FIV para describir qué tanta multicolinealidad existe en un análisis de regresión. La multicolinealidad es problemática porque puede aumentar la varianza de los coeficientes de regresión, haciendo que sea difícil evaluar el impacto individual que cada uno de los predictores tiene sobre la respuesta.

Utilice las siguientes directrices para interpretar el FIV:
FIV Multicolinealidad
FIV = 1 Ninguno
1 < FIV < 5 Moderado
FIV > 5 Alto
Los valores de FIV mayores que 5 sugieren que los coeficientes de regresión se estimaron mal debido a la fuerte multicolinealidad.

Para obtener más información sobre la multicolinealidad y cómo mitigar los efectos de la multicolinealidad, consulte Multicolinealidad en regresión.

Coeficientes codificados

Cuando usted estandariza las variables continuas, los coeficientes representan un cambio de una unidad en las variables estandarizadas. Por lo general, los predictores continuos se estandarizan para reducir la multicolinealidad o para poner las variables en una escala común.

Interpretación

La forma en que se usan los coeficientes codificados depende del método de estandarización. La interpretación exacta de los coeficientes también depende de aspectos del análisis tales como la función de enlace. Los coeficientes positivos hacen que el evento sea más probable. Los coeficientes negativos hacen que el evento sea menos probable. Un coeficiente estimado cercano a 0 implica que el efecto del predictor es pequeño.

Especifique los niveles bajo y alto para codificarlos como −1 y +1

Cada coeficiente representa el cambio esperado en la media de la respuesta transformada dado que el predictor cambie en 1 unidad en la escala codificada.

Por ejemplo, un modelo utiliza la temperatura en grados centígrados y el tiempo en segundos. Para la temperatura, la codificación hace que 0 corresponda a 50 grados centígrados y 1 corresponda a 100 grados centígrados. Para el tiempo, la codificación hace que 0 corresponda a 30 segundos y 1 corresponda a 60 segundos. El coeficiente de temperatura representa un aumento de 50 grados centígrados. El coeficiente de tiempo representa un aumento de 30 segundos.

Restar la media y luego dividir entre la desviación estándar

Cada coeficiente representa el cambio esperado en la media de la respuesta transformada dado que la variable predictora cambie en 1 desviación estándar.

Por ejemplo, un modelo utiliza la temperatura en grados centígrados y el tiempo en segundos. La desviación estándar de la temperatura es 3.7 grados centígrados. La desviación estándar del tiempo es 18.3 segundos. El coeficiente de temperatura representa un aumento de 3.7 grados centígrados. El coeficiente de tiempo representa un aumento de 18.3 segundos.

Restar la media

Cada coeficiente representa el cambio esperado en la media de la respuesta transformada dado que el predictor cambie en 1.

Por ejemplo, un modelo utiliza la temperatura en grados centígrados y el tiempo en segundos. El coeficiente de temperatura representa un aumento de 1 grado centígrado. El coeficiente de tiempo representa un aumento de 1 segundo.

Dividir entre la desviación estándar

Cada coeficiente representa el cambio esperado en la media de la respuesta transformada dado que la variable predictora cambie en 1 desviación estándar.

Por ejemplo, un modelo utiliza la temperatura en grados centígrados y el tiempo en segundos. La desviación estándar de la temperatura es 3.7 grados centígrados. La desviación estándar del tiempo es 18.3 segundos. El coeficiente de temperatura representa un aumento de 3.7 grados centígrados. El coeficiente de tiempo representa un aumento de 18.3 segundos.

Restar un valor especificado y luego dividir entre otro

Cada coeficiente representa el cambio esperado en la media de la respuesta transformada dado que la variable predictora cambie en una cantidad igual al divisor.

Por ejemplo, un modelo utiliza la longitud en metros y la corriente eléctrica en amperios. El divisor es 1,000. El coeficiente de longitud representa un aumento de 1 milímetro. El coeficiente de corriente eléctrica representa un incremento de 1 miliamperio.

Interpretación para la función de enlace logit

La función de enlace logit ofrece la interpretación más natural de los coeficientes estimados y, por lo tanto, es el enlace predeterminado en Minitab. Para la función de enlace logit, la variable de respuesta transformada es el logaritmo natural de las probabilidades para el evento. El siguiente es un resumen de las interpretaciones para los diferentes métodos de estandarización.
Especifique los niveles bajo y alto para codificarlos como −1 y +1

Cada coeficiente representa el cambio esperado en la media de la respuesta transformada dado que el predictor cambie en 1 unidad en la escala codificada.

Por ejemplo, un modelo utiliza la temperatura en grados centígrados. La codificación hace que 0 corresponda a 50 grados centígrados y 1 corresponda a 100 grados centígrados. El coeficiente de temperatura representa un aumento de 50 grados centígrados. El coeficiente de temperatura es 1.8. Cuando la temperatura aumenta en 1 unidad codificada, la temperatura aumenta de 50 grados y el logaritmo natural de las probabilidades aumenta en 1.8.

Restar la media y luego dividir entre la desviación estándar

Cada coeficiente representa el cambio esperado en el logaritmo natural de las probabilidades del evento dado que la variable predictora cambie en 1 desviación estándar.

Por ejemplo, un modelo utiliza la temperatura en grados centígrados. La desviación estándar de la temperatura es 3.7 grados centígrados. El coeficiente codificado de temperatura es 1.4. Cuando la temperatura aumenta en 1 unidad codificada, la temperatura aumenta 3.7 grados centígrados y el logaritmo natural de las probabilidades aumenta en 1.4.

Restar la media

Cada coeficiente representa el cambio esperado en el logaritmo natural de las probabilidades del evento dado que el predictor cambie en 1.

Por ejemplo, un modelo utiliza la temperatura en grados centígrados. El coeficiente de temperatura representa un aumento de 1 grado centígrado. El coeficiente de temperatura es 2.3. Cuando la temperatura aumenta en 1 unidad codificada, la temperatura aumenta 1 grado centígrado y el logaritmo natural de las probabilidades aumenta en 2.3.

Dividir entre la desviación estándar

Cada coeficiente representa el cambio esperado en el logaritmo natural de las probabilidades del evento dado que la variable predictora cambie en 1 desviación estándar.

Por ejemplo, un modelo utiliza la temperatura en grados centígrados. La desviación estándar de la temperatura es 3.7 grados centígrados. El coeficiente de temperatura es 1.4. Cuando la temperatura aumenta en 1 unidad codificada, la temperatura aumenta 3.7 grados centígrados y el logaritmo natural de las probabilidades aumenta en 1.4.

Restar un valor especificado y luego dividir entre otro

Cada coeficiente representa el cambio esperado en el logaritmo natural de las probabilidades del evento dado que la variable predictora cambie en una cantidad igual al divisor.

Por ejemplo, un modelo utiliza la longitud en metros y la corriente eléctrica en amperios. El divisor es 1,000. El coeficiente de longitud representa un aumento de 1 milímetro. El coeficiente de longitud es 5.6. Cuando la longitud aumenta en 1 unidad codificada, la longitud aumenta 1 milímetro y el logaritmo natural de las probabilidades aumenta en 5.6. El coeficiente de corriente eléctrica representa un incremento de 1 miliamperio.

Ecuación de regresión

Para la regresión logística binaria, Minitab muestra dos tipos de ecuaciones de regresión. La primera ecuación relaciona la probabilidad del evento con la respuesta transformada. La forma de la primera ecuación depende de la función de enlace.

La segunda ecuación relaciona los predictores con la respuesta transformada. Si el modelo contiene predictores continuos y categóricos, la segunda ecuación se puede separar para cada combinación de categorías. Para obtener más información sobre cómo elegir el número de ecuaciones que se mostrarán, vaya a Seleccione los resultados que se mostrarán para Ajustar modelo logístico binarioy Regresión logística binaria.

Interpretación

Utilice las ecuaciones para examinar la relación entre la respuesta y las variables predictoras.

Por ejemplo, un modelo para predecir si un cliente comprará un producto tiene estos términos:
  • Ingreso del cliente
  • Si un cliente tiene niños
  • La interacción entre los dos predictores

La primera ecuación muestra la relación entre la probabilidad y la respuesta transformada debido a la función de enlace logit.

La segunda ecuación muestra cómo el ingreso y si un cliente tiene niños se relacionan con la respuesta transformada. Cuando el cliente no tiene niños, el coeficiente de ingreso es aproximadamente 0.04. Cuando el cliente tiene niños, el coeficiente es aproximadamente 0.02. Para estas ecuaciones, mientras mayor es el ingreso de un cliente, más probable es que ese cliente compre el producto. Sin embargo, el ingreso tiene un efecto más fuerte sobre si el cliente compra el producto cuando el cliente no tiene niños.

Ecuación de regresión en unidades no codificadas

P(1)=exp(Y')/(1 + exp(Y'))
Niños
NoY'=-3.549 + 0.04296 Ingresos
       
Y'=-1.076 + 0.01565 Ingresos

Si el modelo no es jerárquico y usted estandarizó los predictores continuos, entonces la ecuación de regresión está en unidades codificadas. Para obtener más información, consulte la sección sobre Coeficientes codificados. Para obtener más información sobre la jerarquía, vaya a ¿Qué son modelos jerárquicos?.