Interpretar todos los estadísticos para Regresión logística nominal

Encuentre definiciones y ayuda para interpretar cada uno de los estadísticos que se proporcionan con el análisis de regresión logística nominal.

Información de respuesta

Minitab muestra la siguiente información acerca de la respuesta:
Variable
Nombre de la variable de respuesta
Valor
Niveles de la variable de respuesta
Conteo
Número de observaciones en cada nivel de la variable de respuesta
Total
Número de observaciones presentes

La salida también identifica qué nivel de la respuesta es el evento de referencia.

Interpretación

Utilice la información de respuesta para examinar la cantidad de datos que están incluidos en el análisis. Las muestras aleatorias más grandes con muchas ocurrencias de cada nivel por lo general proporcionan inferencias más exactas sobre la población.

También puede usar la información de respuesta para determinar qué evento es el evento de referencia. La interpretación de los estadísticos, como los coeficientes y las relaciones de probabilidades, depende de qué evento es el evento de referencia.

Información de factores

La tabla de información de factores muestra los factores incluidos en el diseño, el número de niveles y los valores de los niveles. Los factores solo pueden asumir un número limitado de valores posibles, conocidos como niveles de los factores. Los niveles de los factores pueden ser numéricos o de texto. Los factores numéricos utilizan pocos valores controlados en el experimento, aunque son posibles muchos valores.

Interpretación

Utilice la tabla de información de factores para ver el número de niveles en el análisis. Por ejemplo, un analista de calidad planea estudiar los factores que pueden afectar la resistencia del plástico durante el proceso de manufactura. El analista incluye Aditivo. Aditivo es una variable categórica que puede ser tipo A o tipo B.

Información del factor

FactorNivelesValores
Aditivo2A, B

Los factores pueden ser cruzados o anidados. Dos factores están cruzados cuando cada nivel de un factor ocurre en combinación con cada nivel del otro factor. Dos factores están anidados cuando un conjunto de los niveles de un factor aparecen solamente en un nivel de un segundo factor. Por ejemplo, si un diseño contiene Máquina y Operador, estos factores están cruzados si todos los operadores usan todas las máquinas. Sin embargo, Operador está anidado en Máquina si cada máquina tiene un conjunto diferente de operadores.

En la tabla de información de factores, los paréntesis indican factores anidados. Por ejemplo, Referencia(Evaluador) indica que el factor Referencia está anidado dentro del factor Evaluador. En este contexto, la anidación indica que cada evaluador tiene su propio conjunto de referencias. Los niveles de un factor anidado se repiten para cada nivel de anidación, con lo cual aumenta el número de niveles del factor anidado. En este ejemplo, cada evaluador tiene 5 referencias, pero como las referencias están anidadas en el evaluador, Referencia tiene 20 niveles diferentes.

Información del factor

FactorNivelesValores
Estándar(Evaluador)201(Amanda), 2(Amanda), 3(Amanda), 4(Amanda), 5(Amanda),
1(Britt), 2(Britt), 3(Britt), 4(Britt), 5(Britt), 1(Eric),
2(Eric), 3(Eric), 4(Eric), 5(Eric), 1(Mike), 2(Mike), 3(Mike),
4(Mike), 5(Mike)
Evaluador4Amanda, Britt, Eric, Mike

Para obtener más información sobre los factores, vaya a Factores y niveles de factor, ¿Qué son factores, factores cruzados y factores anidados? y ¿Cuál es la diferencia entre factores fijos y aleatorios?.

Coef

La ecuación logística nominal trata cada resultado nominal por separado. La ecuación de regresión logística consta de múltiples funciones logit, una para cada valor de la respuesta menos uno. Cada ecuación tiene una pendiente única para los predictores. Estas ecuaciones evalúan cómo cambia la probabilidad de un resultado nominal en relación con otro resultado nominal a medida que cambian las variables predictoras.

Interpretación

Utilice los coeficientes para examinar cómo cambia la probabilidad de un resultado a medida que cambian las variables predictoras. El coeficiente estimado para un predictor representa el cambio en la función de enlace por cada cambio de una unidad en el predictor, mientras los demás predictores incluidos en el modelo se mantienen constantes. La relación entre el coeficiente y la probabilidad de un resultado depende de varios aspectos del análisis, incluyendo el resultado de referencia para la variable de respuesta y los niveles de referencia para los predictores categóricos. Por lo general, los coeficientes positivos hacen que el resultado de referencia sea menos probable a medida que aumenta el predictor. Los coeficientes negativos hacen que el resultado de referencia sea más probable a medida que aumenta el predictor. Un coeficiente estimado cercano a 0 implica que el efecto del predictor es pequeño.

Por ejemplo, la administradora de una escuela desea evaluar diferentes métodos de enseñanza. Ella utiliza la edad y el método de enseñanza para predecir qué materias prefieren los estudiantes. El primer evento de resultado es el primero de la tabla de información de respuesta y es el resultado de referencia para la variable de respuesta. Para estos datos, el resultado de referencia es que el estudiante prefiere ciencia. El logit 1 compara la probabilidad de que un estudiante prefiera matemática a ciencia. En esta ecuación, el valor p para el coeficiente de edad es mayor que 0.7. Un valor p tan alto sugiere que la edad tiene poco efecto sobre si un estudiante prefiere matemática a ciencia.

El logit 2 compara artes con ciencia. En esta ecuación, el coeficiente de edad es mayor que el coeficiente que compara matemática con ciencia. El coeficiente de edad es positivo. A medida que aumenta la edad, es más probable que los estudiantes prefieran artes a ciencia.

La interpretación de los coeficientes de los predictores categóricos depende del nivel de referencia del factor. En los datos sobre los métodos de enseñanza, los dos niveles del método de enseñanza son "Demostrar" y "Explicar". "Demostrar" no está en la tabla de coeficientes, así que "Demostrar" es el nivel de referencia. El valor p de "Explicar" en la ecuación que compara matemática con ciencia es mayor que 0.5. Un valor p tan alto sugiere que el método de enseñanza tiene poco efecto sobre si un estudiante prefiere matemática a ciencia.

En el logit 2, el coeficiente de "Explicar" es mayor que el coeficiente que compara matemática con ciencia. El valor p de este coeficiente es menor que 0.05, por lo que este coeficiente es estadísticamente significativo en el nivel 0.05. El coeficiente de "Explicar" en esta ecuación es positivo. Cuando el método de enseñanza es "Explicar", es más probable que el estudiante prefiera artes.

Información de respuesta

VariableValorConteo
MateriaCiencia10(Evento de referencia)
  Matemática11 
  Artes9 
  Total30 

Información del factor

FactorNivelesValores
MétodoEnseñ2Demostrar, Explicar

Tabla de regresión logística






Relación de
probabilidades
IC de 95%
PredictorCoefSE CoefZPInferior
Logit 1: (Matemática/Ciencia)           
Constante-1.122664.56425-0.250.806   
MétodoEnseñ           
  Explicar-0.5631150.937591-0.600.5480.570.09
Edad0.1246740.4010790.310.7561.130.52
Logit 2: (Artes/Ciencia)           
Constante-13.84857.24256-1.910.056   
MétodoEnseñ           
  Explicar2.769921.372092.020.04415.961.08
Edad1.013540.5844941.730.0832.760.88

IC de 95%
PredictorSuperior
Logit 1: (Matemática/Ciencia) 
Constante 
MétodoEnseñ 
  Explicar3.58
Edad2.49
Logit 2: (Artes/Ciencia) 
Constante 
MétodoEnseñ 
  Explicar234.90
Edad8.66
Log-verosimilitud = -26.446

La prueba de que todas las pendientes son cero

GLGValor p
412.8250.012

Pruebas de bondad de ajuste

MétodoChi-cuadradaGLP
Pearson6.95295100.730
Desviación7.88622100.640

EE Coef

El error estándar del coeficiente estima la variabilidad entre las estimaciones del coeficiente que se obtendrían si se tomara las muestras de la misma población una y otra vez. El cálculo asume que el tamaño de la muestra y los coeficientes a estimar se mantendrían iguales si se tomara la muestra una y otra vez.

Interpretación

Utilice el error estándar del coeficiente para medir la precisión de la estimación del coeficiente. Cuanto menor sea el error estándar, más precisa será la estimación.

Valor Z

El valor Z es un estadístico de prueba que mide la relación entre el coeficiente y su error estándar.

Interpretación

Minitab utiliza el valor Z para calcular el valor p, que se usa para tomar una decisión acerca de la significancia estadística de los términos y el modelo. La prueba es exacta cuando el tamaño de la muestra es lo suficientemente grande como para que la distribución de los coeficientes de la muestra siga una distribución normal.

Un valor Z que esté lo suficientemente lejos de 0 indica que la estimación del coeficiente es lo suficientemente grande y precisa como para ser significativamente diferente de 0. En cambio, un valor Z pequeño que está cerca de 0 indica que la estimación del coeficiente es demasiado pequeña o demasiado imprecisa como para asegurar que el término tiene un efecto significativo sobre la respuesta.

Valor p

El valor p es una probabilidad que mide la evidencia en contra de la hipótesis nula. Las probabilidades más bajas proporcionan una evidencia más fuerte en contra de la hipótesis nula.

Interpretación

Para determinar si la asociación entre la respuesta y cada término incluido en el modelo es estadísticamente significativa, compare el valor p del término con el nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que el coeficiente del término es igual a cero, lo que implica que no hay asociación entre el término y la respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real.
Valor p ≤ α: La asociación es estadísticamente significativa
Si el valor p es menor que o igual al nivel de significancia, usted puede concluir que hay una asociación estadísticamente significativa entre la variable de respuesta y el término.
Valor p > α: La asociación no es estadísticamente significativa
Si el valor p es mayor que el nivel de significancia, usted no puede concluir que existe una asociación estadísticamente significativa entre la variable de respuesta y el término. Convendría que vuelva a ajustar el modelo sin el término.
Si hay múltiples predictores sin una asociación estadísticamente significativa con la respuesta, usted puede reducir el modelo eliminando términos uno a la vez. Para obtener más información sobre cómo eliminar términos del modelo, vaya a Reducción del modelo.
Si un término del modelo es estadísticamente significativo, la interpretación depende del tipo de término. Las interpretaciones son las siguientes:
  • Si un predictor continuo es significativo, usted puede concluir que las probabilidades del nivel de respuesta dependen del predictor.
  • Si un predictor categórico es significativo, usted puede concluir que los niveles de respuesta tienen diferentes probabilidades de ocurrir a ese nivel del factor que al nivel de referencia del factor.
  • Si un término de interacción es significativo, usted puede concluir que la relación entre un predictor y las probabilidades del nivel de respuesta depende del resto de los predictores en el término.
  • Si un término polinómico es significativo, usted puede concluir que la relación entre un predictor y las probabilidades del nivel de respuesta depende de la magnitud del predictor.

Relación de probabilidades

La relación de probabilidades compara las probabilidades de dos resultados. Las probabilidades de un resultado son la probabilidad de que ocurra el resultado de comparación dividida entre la probabilidad de que ocurra el resultado de referencia.

Interpretación

Utilice la relación de probabilidades para entender el efecto de un predictor. La interpretación de la relación de probabilidades depende de si el predictor es categórico o continuo. En la tabla de regresión logística, el resultado de comparación es el primer resultado después de la etiqueta logit y el resultado de referencia es el segundo resultado. El resultado de referencia es igual para cada logit.

Relaciones de probabilidades para predictores continuos

Las relaciones de probabilidades que son mayores que 1 indican que el resultado de comparación es más probable que el resultado de referencia a medida que aumenta el predictor. Las relaciones de probabilidades que son menores que 1 indican que el resultado de referencia es más probable que el resultado de comparación.

Por ejemplo, la administradora de una escuela desea evaluar diferentes métodos de enseñanza. Para el logit 1, el resultado de comparación es matemática. Para el logit 2, el resultado de comparación es artes. El resultado de referencia es ciencia. En el logit 2, la estimación de la relación de probabilidades es 2.76, que es mayor que 1. A medida que aumenta la edad, es más probable que un estudiante prefiera artes a ciencia. Por cada año de edad adicional, las probabilidades de que un estudiante prefiera artes son 3 veces mayores que las probabilidades de que prefiera ciencia.

Tabla de regresión logística






Relación de
probabilidades
IC de 95%
PredictorCoefSE CoefZPInferior
Logit 1: (Matemática/Ciencia)           
Constante-1.122664.56425-0.250.806   
MétodoEnseñ           
  Explicar-0.5631150.937591-0.600.5480.570.09
Edad0.1246740.4010790.310.7561.130.52
Logit 2: (Artes/Ciencia)           
Constante-13.84857.24256-1.910.056   
MétodoEnseñ           
  Explicar2.769921.372092.020.04415.961.08
Edad1.013540.5844941.730.0832.760.88

IC de 95%
PredictorSuperior
Logit 1: (Matemática/Ciencia) 
Constante 
MétodoEnseñ 
  Explicar3.58
Edad2.49
Logit 2: (Artes/Ciencia) 
Constante 
MétodoEnseñ 
  Explicar234.90
Edad8.66

Relaciones de probabilidades para predictores categóricos

Para los predictores categóricos, la relación de probabilidades compara las probabilidades del resultado de comparación en dos niveles diferentes del predictor. El nivel de comparación se incluye en la tabla de regresión logística y tiene una relación de probabilidades estimada. Las relaciones de probabilidades que son mayores que 1 indican que el resultado de comparación se vuelve más probable en relación con el resultado de referencia cuando el predictor categórico cambia del nivel de referencia al nivel de comparación. Las relaciones de probabilidades que son menores que 1 indican que el resultado de comparación se vuelve menos probable en relación con el resultado de referencia cuando el predictor categórico cambia del nivel de referencia al nivel de comparación.

Por ejemplo, la administradora de una escuela desea evaluar diferentes métodos de enseñanza. Para el logit 1, el resultado de comparación es matemática. Para el logit 2, el resultado de comparación es artes. El resultado de referencia es ciencia. Para el logit 2, la estimación de la relación de probabilidades para el método de enseñanza es 15.96, que es mayor que 1. Cuando el método de enseñanza cambia de "demostrar" a "explicar", las probabilidades de que un estudiante prefiera artes son aproximadamente 16 veces mayores que las probabilidades de que prefiera ciencia.

Tabla de regresión logística






Relación de
probabilidades
IC de 95%
PredictorCoefSE CoefZPInferior
Logit 1: (Matemática/Ciencia)           
Constante-1.122664.56425-0.250.806   
MétodoEnseñ           
  Explicar-0.5631150.937591-0.600.5480.570.09
Edad0.1246740.4010790.310.7561.130.52
Logit 2: (Artes/Ciencia)           
Constante-13.84857.24256-1.910.056   
MétodoEnseñ           
  Explicar2.769921.372092.020.04415.961.08
Edad1.013540.5844941.730.0832.760.88

IC de 95%
PredictorSuperior
Logit 1: (Matemática/Ciencia) 
Constante 
MétodoEnseñ 
  Explicar3.58
Edad2.49
Logit 2: (Artes/Ciencia) 
Constante 
MétodoEnseñ 
  Explicar234.90
Edad8.66

Intervalo de confianza para la relación de probabilidades (IC de 95%)

Estos intervalos de confianza (IC) son rangos de valores que probablemente contienen los verdaderos valores de las relaciones de probabilidades. El cálculo de los intervalos de confianza utiliza la distribución normal. El intervalo de confianza es exacto si el tamaño de la muestra es lo suficientemente grande como para que la distribución de las relaciones de probabilidades de la muestra siga una distribución normal.

Puesto que las muestras son aleatorias, es poco probable que dos muestras de una población produzcan intervalos de confianza idénticos. Sin embargo, si toma muchas muestras aleatorias, un determinado porcentaje de los intervalos de confianza resultantes incluirá el parámetro de población desconocido. El porcentaje de estos intervalos de confianza que contiene el parámetro es el nivel de confianza del intervalo.

El intervalo de confianza consta de las dos partes siguientes:
Estimación de punto
La estimación de punto es la estimación del parámetro que se calcula a partir de los datos de la muestra.
Margen de error
El margen de error define la amplitud del intervalo de confianza y es afectado por el rango de probabilidades del evento, el tamaño de la muestra y el nivel de confianza.

Interpretación

Utilice el intervalo de confianza para evaluar la estimación de la relación de probabilidades.

Por ejemplo, con un nivel de confianza de 95%, usted puede estar 95% seguro de que el intervalo de confianza contiene el valor de la relación de probabilidades para la poblaicón. El intervalo de confianza ayuda a evaluar la significancia práctica de los resultados. Utilice su conocimiento especializado para determinar si el intervalo de confianza incluye valores que tienen significancia práctica para su situación. Si el intervalo es demasiado amplio para ser útil, considere aumentar el tamaño de la muestra.

Prueba para términos con más de 1 grado de libertad

Esta prueba es una prueba general que considera todos los coeficientes de un predictor categórico de manera simultánea. La prueba es para los predictores categóricos con más de 2 niveles.

Interpretación

Utilice la prueba para determinar si un predictor categórico con más de 1 coeficiente tiene una relación estadísticamente significativa con los eventos de respuesta. Cuando un predictor categórico tiene más de 2 niveles, los coeficientes de los niveles individuales tienen valores p diferentes. La prueba general proporciona una sola respuesta acerca de si el predictor es estadísticamente significativo.

Para determinar si la asociación entre los eventos de respuesta y el predictor categórico es estadísticamente significativa, compare el valor p de la prueba con su nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que no existe asociación entre el predictor y los eventos de respuesta. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real.
Valor p ≤ α: La asociación es estadísticamente significativa
Si el valor p es menor que o igual al nivel de significancia, usted puede concluir que hay una asociación estadísticamente significativa entre la variable de respuesta y el predictor.
Valor p > α: La asociación no es estadísticamente significativa
Si el valor p es mayor que el nivel de significancia, usted no puede concluir que hay una asociación estadísticamente significativa entre la variable de respuesta y el predictor.

Log-verosimilitud

Minitab maximiza la función de log-verosimilitud para encontrar los valores óptimos de los coeficientes estimados.

Interpretación

Utilice la log-verosimilitud para comparar dos modelos que utilizan los mismos datos para estimar los coeficientes. Puesto que los valores son negativos, cuanto más cercano a 0 esté el valor, mejor se ajustará el modelo a los datos.

La log-verosimilitud no puede disminuir cuando se agregan términos a un modelo. Por ejemplo, un modelo con 5 términos tiene una log-verosimilitud mayor que la de cualquier modelo de 4 términos que se pueda crear con los mismos términos. Por lo tanto, la log-verosimilitud es más útil cuando se comparan modelos del mismo tamaño. Para tomar decisiones sobre términos individuales, por lo general se examinan los valores p del término en los diferentes logits.

Probar que todas las pendientes son cero

Esta prueba es una prueba general que considera todos los coeficientes de los predictores incluidos en el modelo.

Interpretación

Utilice la prueba para determinar si al menos uno de los predictores incluidos en el modelo tiene una asociación estadísticamente significativa con los eventos de respuesta. Por lo general, usted no interpreta el estadístico G ni los grados de libertad (GL). Los GL son iguales al número de coeficientes para los predictores incluidos en el modelo.

Para determinar si la asociación entre lo eventos de respuesta y los predictores es estadísticamente significativa, compare el valor p de la prueba con el nivel de significancia para evaluar la hipótesis nula. La hipótesis nula es que todos los coeficientes de los predictores incluidos en el modelo son cero, lo que implica que no existe ninguna asociación entre los eventos de respuesta y cualquiera de los predictores. Por lo general, un nivel de significancia (denotado como α o alfa) de 0.05 funciona adecuadamente. Un nivel de significancia de 0.05 indica un riesgo de 5% de concluir que existe una asociación cuando no hay una asociación real.
Valor p ≤ α: La asociación es estadísticamente significativa
Si el valor p es menor que o igual al nivel de significancia, usted puede concluir que hay una asociación estadísticamente significativa entre la variable de respuesta y al menos uno de los predictores.
Valor p > α: La asociación no es estadísticamente significativa
Si el valor p es mayor que el nivel de significancia, usted no puede concluir que hay una asociación estadísticamente significativa entre la variable de respuesta y cualquiera de los términos.

Prueba de bondad de ajuste de Pearson

La prueba de bondad de ajuste de Pearson evalúa la discrepancia entre el modelo actual y el modelo completo.

Interpretación

Utilice las pruebas de bondad de ajuste para determinar si las probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que la distribución multinomial no predice. La prueba no es útil cuando el número de valores distintos es aproximadamente igual al número de observaciones, pero la prueba es útil cuando usted tiene múltiples observaciones en los mismos valores de los predictores. Si el valor p para la prueba de bondad de ajuste es menor que el nivel de significancia elegido, las probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que la distribución multinomial no predice. Esta lista indica las razones comunes de la desviación:
  • Término de orden superior omitido para las variables que están en el modelo
  • Predictor omitido que no está en el modelo

Prueba de bondad de ajuste de desviación

La prueba de bondad de ajuste de la desviación evalúa la discrepancia entre el modelo actual y el modelo completo.

Interpretación

Utilice las pruebas de bondad de ajuste para determinar si las probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que la distribución multinomial no predice. La prueba no es útil cuando el número de valores distintos es aproximadamente igual al número de observaciones, pero la prueba es útil cuando usted tiene múltiples observaciones en los mismos valores de los predictores. Si el valor p para la prueba de bondad de ajuste es menor que el nivel de significancia elegido, las probabilidades pronosticadas se desvían de las probabilidades observadas de una manera que la distribución multinomial no predice. Esta lista indica las razones comunes de la desviación:
  • Término de orden superior omitido para las variables que están en el modelo
  • Predictor omitido que no está en el modelo