Existen dos condiciones que impiden la convergencia de las estimaciones de máxima verosimilitud para los coeficientes: separación completa y separación casi completa.
La separación completa ocurre cuando una combinación lineal de los predictores produce una predicción perfecta de la variable de respuesta. Por ejemplo, en el siguiente conjunto de datos, si X ≤ 4, entonces Y = 0. Si X > 4, entonces Y = 1.
Y | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 |
X | 1 | 2 | 3 | 4 | 4 | 4 | 5 | 6 | 7 | 8 |
La separación casi completa es similar a la separación completa. Los predictores producen una predicción perfecta de la variable de respuesta para la mayoría de los valores de los predictores, pero no todos. Por ejemplo, en el conjunto de datos anterior, para uno de los valores donde X = 4, sea Y = 1 en lugar de 0. Ahora, si X < 4, entonces Y = 0, si X > 4, entonces Y = 1, pero si X = 4, entonces Y podría ser 0 o 1. Esta superposición en el rango medio de los datos hace que la separación sea casi completa.
Y | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
X | 1 | 2 | 3 | 4 | 4 | 4 | 5 | 6 | 7 | 8 |
Con frecuencia, la separación se produce cuando el conjunto de datos es demasiado pequeño para observar eventos con bajas probabilidades. Mientras más predictores haya en el modelo, más probable será que ocurra la separación, porque los grupos individuales de los datos tienen tamaños de muestra más pequeños.
Aunque Minitab genera una advertencia cuando detecta separación, mientras más predictores haya en el modelo, más difícil será identificar la causa de la separación. La inclusión de términos de interacción en el modelo hace que la dificultad sea aún mayor.
Frutas | Eventos | Ensayos |
---|---|---|
Toronja | 0 | 10 |
Naranjas | 5 | 100 |
Manzanas | 25 | 100 |
Bananas | 40 | 100 |
Frutas | Eventos | Ensayos |
---|---|---|
Cítricos | 5 | 110 |
Manzanas | 25 | 100 |
Bananas | 40 | 100 |
Categorías de duración | Eventos | Ensayos |
---|---|---|
1–90 | 2 | 2 |
91–180 | 1 | 2 |
181–270 | 1 | 2 |
271–360 | 0 | 2 |
Duración exacta | Eventos | Ensayos |
---|---|---|
45 | 1 | 1 |
60 | 1 | 1 |
95 | 1 | 1 |
176 | 0 | 1 |
185 | 0 | 1 |
241 | 1 | 1 |
280 | 0 | 1 |
299 | 0 | 1 |
Para obtener más información acerca de la separación, por favor, consulte Albert y J. A. Anderson (1984) "On the existence of maximum likelihood estimates in logistic regression models" Biometrika 71, 1, 1–10.