Interpretar los resultados clave para Ajustar modelo logístico binario

Complete los siguientes pasos para interpretar un modelo logístico binario. La salida clave incluye el valor p, los coeficientes, R2 y las pruebas de bondad de ajuste.

Paso 1: Determinar si la asociación entre la respuesta y el término es estadísticamente significativa

Para determinar si la asociación entre la respuesta y cada término incluido en el modelo es estadísticamente significativa, compare el valor p del término con el nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que no hay asociación entre el término y la respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real.
Valor p ≤ α: La asociación es estadísticamente significativa
Si el valor p es menor que o igual al nivel de significancia, usted puede concluir que hay una asociación estadísticamente significativa entre la variable de respuesta y el término.
Valor p > α: La asociación no es estadísticamente significativa
Si el valor p es mayor que el nivel de significancia, usted no puede concluir que existe una asociación estadísticamente significativa entre la variable de respuesta y el término. Convendría que vuelva a ajustar el modelo sin el término.
Si hay múltiples predictores sin una asociación estadísticamente significativa con la respuesta, usted puede reducir el modelo eliminando términos uno a la vez. Para obtener más información sobre cómo eliminar términos del modelo, vaya a Reducción del modelo.
Si un término del modelo es estadísticamente significativo, la interpretación depende del tipo de término. Las interpretaciones son las siguientes:
  • Si un predictor continuo es significativo, se puede concluir que el coeficiente del predictor es diferente de cero.
  • Si un predictor categórico es significativo, se puede concluir que no todos los niveles del factor tienen la misma probabilidad.
  • Si un término de interacción es significativo, se puede concluir que la relación entre un predictor y la probabilidad del evento depende del resto de los predictores en el término.
  • Si un término polinomial es significativo, se puede concluir que la relación entre un predictor y la probabilidad del evento depende de la magnitud del predictor.
Tabla de desviaciones Desv. Media Fuente GL ajust. ajust. Chi-cuadrada Valor p Regresión 1 22.7052 22.7052 22.71 0.000 Dosis (mg) 1 22.7052 22.7052 22.71 0.000 Error 4 0.9373 0.2343 Total 5 23.6425
Coeficientes EE del Término Coef coef. FIV Constante -5.25 1.99 Dosis (mg) 3.63 1.30 1.00
Relaciones de probabilidades para predictores continuos Relación de probabilidades IC de 95% Dosis (mg) 37.5511 (2.9645, 475.6528)
Resultados clave: Valor p, coeficientes

En estos resultados, la dosis es estadísticamente significativa en el nivel de significancia de 0.05. Usted puede concluir que los cambios en la dosis están asociados a los cambios en la probabilidad de que ocurra el evento.

Evalúe el coeficiente para determinar si un cambio en una variable predictora hace que el evento sea más o menos probable. La relación entre el coeficiente y la probabilidad depende de varios aspectos del análisis, incluyendo la función de enlace. Por lo general, los coeficientes positivos indican que el evento se vuelve más probable a medida que aumenta el predictor. Los coeficientes negativos indican que el evento se vuelve menos probable a medida que aumenta el predictor. Para obtener más información, vaya a Coeficientes y ecuación de regresión para Ajustar modelo logístico binario.

El coeficiente de Dosis es 3.63, lo que sugiere que las dosis más altas están asociadas con una mayor probabilidad que ocurra el evento.

Si un término de interacción es estadísticamente significativo, la relación entre un predictor y la respuesta difiere por el nivel del otro predictor. En este caso, usted no debe interpretar los efectos principales sin considerar el efecto de interacción. Para entender mejor los efectos principales, los efectos de interacción y la curvatura del modelo, vaya a Gráficas factoriales y Optimizador de respuestas.

Paso 2: Entender los efectos de los predictores

Utilice la relación de probabilidades para entender el efecto de un predictor. La interpretación de la relación de probabilidades depende de si el predictor es categórico o continuo. Minitab calcula las relaciones de probabilidades cuando el modelo utiliza la función de enlace logit.
Relaciones de probabilidades para predictores continuos

Las relaciones de probabilidades que son mayores que 1 indican que es más probable que el evento ocurra a medida que aumenta el predictor. Las relaciones de probabilidades que son menores que 1 indican que es menos probable que el evento ocurra a medida que aumenta el predictor.

Regresión logística binaria: Sin bacterias vs. Dosis (mg)

Relaciones de probabilidades para predictores continuos Unidad de Relación de cambio probabilidades IC de 95% Dosis (mg) 0.5 6.1279 (1.7218, 21.8095)
Resultado clave: Relación de probabilidades

En estos resultados, el modelo utiliza el nivel de dosificación de un medicamento para predecir la presencia o ausencia de una bacteria en adultos. Cada pastilla contiene una dosis de 0.5 mg, por lo que los investigadores utilizan un cambio de una unidad de 0.5 mg. La relación de probabilidades es aproximadamente 6. Por cada pastilla adicional que toma un adulto, las probabilidades de que un paciente no tenga la bacteria aumentan alrededor de 6 veces.

Relaciones de probabilidades para predictores categóricos

Para los predictores categóricos, la relación de probabilidades compara las probabilidades de que el evento ocurra en 2 niveles diferentes del predictor. Minitab establece la comparación colocando los niveles en 2 columnas: nivel A y nivel B. El nivel B es el nivel de referencia para el factor. Las relaciones de probabilidades que son mayores que 1 indican que el evento es menos probable en el nivel B. Las relaciones de probabilidades que son menores que 1 indican que el evento es más probable en el nivel B. Para obtener información sobre cómo seleccionar el nivel de referencia para el análisis, vaya a Especificar el esquema de la codificación para Ajustar modelo logístico binario.

Regresión logística binaria: Cancellation vs. Mes

Relaciones de probabilidades para predictores categóricos Relación de Nivel A Nivel B probabilidades IC de 95% Mes 2 1 1.1250 (0.0600, 21.0867) 3 1 3.3750 (0.2897, 39.3222) 4 1 7.7143 (0.7460, 79.7712) 5 1 2.2500 (0.1107, 45.7226) 6 1 6.0000 (0.5322, 67.6495) 3 2 3.0000 (0.2547, 35.3340) 4 2 6.8571 (0.6556, 71.7201) 5 2 2.0000 (0.0976, 41.0034) 6 2 5.3333 (0.4679, 60.7972) 4 3 2.2857 (0.4103, 12.7323) 5 3 0.6667 (0.0514, 8.6389) 6 3 1.7778 (0.2842, 11.1200) 5 4 0.2917 (0.0252, 3.3719) 6 4 0.7778 (0.1464, 4.1326) 6 5 2.6667 (0.2124, 33.4861) Relación de probabilidades para nivel A relativo a nivel B
Resultado clave: Relación de probabilidades

En estos resultados, el predictor categórico es el mes desde el inicio de la temporada alta de un hotel. La respuesta es si un huésped cancela o no cancela una reservación. La mayor relación de probabilidades es aproximadamente 8, cuando el nivel A es el mes 4 y el nivel B es el mes 1. Esto indica que las probabilidades de que un huésped cancele una reservación en el mes 4 son aproximadamente 8 veces mayores que las probabilidades de que un huésped cancele una reservación en el mes 1.

Para obtener más información, vaya a Relaciones de probabilidades para Ajustar modelo logístico binario.

Paso 3: Determinar qué tan bien se ajusta el modelo a los datos

Para determinar qué tan bien se ajusta el modelo a los datos, examine los estadísticos de la tabla Resumen del modelo.

Para una regresión logística binaria, el formato de datos afecta la mayor parte del resumen del modelo y los estadísticos de bondad de ajuste. El criterio AIC y la prueba Hosmer-Lemeshow no se ven afectadas por el formato de los datos y son, por lo tanto, comparables entre formatos. Para obtener más información, vaya a Cómo los formatos de datos afectan la bondad de ajuste en regresión logística binaria.

R-cuad. de desviación

Mientras más alta sea la desviación R2, mejor se ajustará el modelo a los datos. La desviación de R2 siempre se encuentra entre 0 y 100 %.

La desviación de R2 siempre se incrementa cuando agrega predictores adicionales a un modelo. Por ejemplo, el mejor modelo de 5 predictores siempre tendrá un R2 que sea al menos tan alto como el mejor modelo de 4 predictores. Por lo tanto, la desviación de R2 es más útil cuando se comparan modelos del mismo tamaño.

Para la regresión logística binaria, el formato de los datos afecta el valor de la desviación de R2. La desviación de R2 generalmente es mayor para los datos en formato Event/Trial. Los valores de la desviación de R2 son comparables solamente entre modelos que utilizan el mismo formato de datos.

Un R2 de desviación es solo una medidad de hasta qué punto el modelo se ajusta a los datos. Incluso cuando un modelo tiene un R2 alto, debe revisar las gráficas de residuos y las pruebas de bondad de ajuste para evaluar hasta qué punto un modelo se ajusta a los datos.

R-cuad. (ajust.) de desviación

Utilice la desviación de R2 ajustado para comparar modelos que tengan diferentes números de predictores. La desviación de R2 siempre se incrementa cuando agrega un predictor al modelo. El valor de la desviación de R2 incorpora el número de predictores en el modelo para ayudarle a elegir el modelo correcto.

AIC

Utilice el criterio AIC para comparar modelos diferentes. Mientras menor sea el criterio AIC, mejor se ajustará el modelo a los datos. Sin embargo, el modelo con el criterio AIC más pequeño para un conjunto de predictores no necesariamente ajusta los datos adecuadamente. Utilice también las pruebas de bondad de ajuste y las gráficas de residuos para evaluar hasta qué punto un modelo se ajusta a los datos.

Resumen del modelo R-cuad. R-cuad. de (ajust) de desviación desviación AIC 96.04% 91.81% 21.68
Resultados clave: R-cuad. de desviación, R-cuad.(ajust) de desviación, AIC

En estos resultados, el modelo explica 96.04% de la desviación en la variable de respuesta. Para estos datos, el valor de R2 de desviación indica que el modelo proporciona un ajuste adecuado a los datos. Si ajusta otros modelos con diferentes predictores, utilice el valor ajustado del R2 de desviación y el valor de AIC para comparar qué tan bien se ajustan los modelos a los datos.

Paso 4: Determinar si el modelo no se ajusta a los datos

Utilice las pruebas de bondad de ajuste para determinar si las probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que la distribución binomial no predice. Si el valor p para la prueba de bondad de ajuste es menor que el nivel de significancia elegido, las probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que la distribución binomial no predice. Esta lista indica las razones comunes de la desviación:
  • Función de enlace incorrecta
  • Término de orden superior omitido para las variables que están en el modelo
  • Predictor omitido que no está en el modelo
  • Dispersión excesiva

Si la desviación es estadísticamente significativa, usted puede probar con una función de enlace diferente o cambiar los términos incluidos en el modelo.

Para la regresión logística binaria, el formato los datos afecta el valor p debido a que cambia el número de ensayos por fila.

  • Desviación: El valor p de la prueba de desviación tiende a ser menor para los datos que están en el formato de Frecuencia/Respuesta Binaria en comparación con los datos en el formato Event/Trial. Para los datos en el formato de Frecuencia/Respuesta Binaria, los resultados en formato Hosmer-Lemeshow son más confiables.
  • Pearson: La aproximación a la distribución de chi-cuadrada que la prueba Pearson utiliza resulta inexacta cuando el número de eventos esperados por fila en los datos es pequeño. De esta forma, la prueba Pearson de bondad de ajuste resulta inexacta cuando los datos están en formato de Frecuencia/Respuesta Binaria.
  • Hosmer-Lemeshow: La prueba Hosmer-Lemeshow no depende del número de ensayos por fila en los datos como lo hacen las otras pruebas de bondad de ajuste. Cuando los datos tienen pocos ensayos por fila, la prueba Hosmer-Lemeshow es un indicador más confiable de hasta qué punto el modelo se ajusta a los datos.
Información de respuesta Nombre del Variable Valor Conteo evento Evento Evento 160 Evento Sin evento 340 Ensayo Total 500
Pruebas de bondad del ajuste Prueba GL Chi-cuadrada Valor p Desviación 2 3.78 0.151 Pearson 2 3.76 0.152 Hosmer-Lemeshow 3 3.76 0.288
Resultados clave para el formato de evento/ensayo: Información de respuesta, prueba de desviación, prueba de Pearson, prueba de Hosmer-Lemeshow

En estos resultados, la tabla Información de respuesta muestra Evento y Ensayo en la columna Variable. Estas etiquetas indican que los datos están en el formato de Evento/Ensayo. Todas las pruebas de bondad de ajuste tienen valores p mayores que el nivel de significancia habitual de 0.05. Las pruebas no proporcionan evidencia de que las probabilidades pronosticadas se desvíen de las probabilidades observadas de una manera que la distribución binomial no predice.

Información de respuesta Variable Valor Conteo Y Evento 160 (Evento) Sin evento 340 Total 500
Pruebas de bondad del ajuste Prueba GL Chi-cuadrada Valor p Desviación 497 552.03 0.044 Pearson 497 504.42 0.399 Hosmer-Lemeshow 3 3.76 0.288
Resultados clave para el formato de respuesta binaria/frecuencia: Información de respuesta, prueba de desviación, prueba de Pearson, prueba de Hosmer-Lemeshow

En estos resultados para los mismos datos, la tabla Información de respuesta muestra Y en la columna Variable. Esta etiqueta indica que los datos están en un formato de respuesta binaria/frecuencia. La prueba de desviación tiene un valor p menor que el nivel de significancia habitual de 0.05, pero la prueba de Hosmer-Lemeshow es la prueba más fiable. La prueba de Hosmer-Lemeshow no proporciona evidencia de que las probabilidades pronosticadas se desvíen de las probabilidades observadas de una manera que la distribución binomial no predice.

Al utilizar este sitio, usted acepta el uso de cookies para efectos de análisis y contenido personalizado.  Leer nuestra política