Existem duas condições que impedem a convergência das estimativas de probabilidade máxima para os coeficientes: separação completa e separação quase-completa.
Separação completa ocorre quando uma combinação linear dos preditores gera uma predição perfeita da variável de resposta. Por exemplo, no conjunto de dados a seguir, se X ≤ 4 então Y = 0. Se X > 4 então Y = 1.
Y | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 |
X | 1 | 2 | 3 | 4 | 4 | 4 | 5 | 6 | 7 | 8 |
A separação quase completa é similar à separação completa. Os preditores geram uma predição perfeita da variável de resposta para a maior parte dos valores dos preditores, mas não todos. Por exemplo, no conjunto de dados anterior, onde x = 4, faça Y = 1 ao invés de 0. Agora, se X < 4 então Y = 0, se X > 4 então Y = 1, mas se X = 4 então Y poderia ser 0 ou 1. Essa sobreposição na parte central dos dados torna a separação quase completa.
Y | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
X | 1 | 2 | 3 | 4 | 4 | 4 | 5 | 6 | 7 | 8 |
Uma separação ocorre frequentemente quando o conjunto de dados é muito pequeno para se observar eventos com baixas probabilidades. Quanto mais preditores houver no modelo, mais provável será a separação porque os grupos individuais nos dados possuem tamanhos amostrais menores.
Embora o Minitab imprima uma advertência ao detectar separação, quanto mais preditores houver no modelo, mais difícil será identificar a causa da separação. A inclusão de termos de interação no modelo aumenta ainda mais essa dificuldade.
Fruta | Eventos | Ensaios |
---|---|---|
Grapefruit | 0 | 10 |
Laranjas | 5 | 100 |
Maçãs | 25 | 100 |
Bananas | 40 | 100 |
Fruta | Eventos | Ensaios |
---|---|---|
Cítricos | 5 | 110 |
Maçãs | 25 | 100 |
Bananas | 40 | 100 |
Categorias de tempo | Eventos | Ensaios |
---|---|---|
1–90 | 2 | 2 |
91–180 | 1 | 2 |
181–270 | 1 | 2 |
271–360 | 0 | 2 |
Comprimento exato | Eventos | Ensaios |
---|---|---|
45 | 1 | 1 |
60 | 1 | 1 |
95 | 1 | 1 |
176 | 0 | 1 |
185 | 0 | 1 |
241 | 1 | 1 |
280 | 0 | 1 |
299 | 0 | 1 |
Para obter mais informações sobre separação, consulte Albert and J. A. Anderson (1984) "On the existence of maximum likelihood estimates in logistic regression models" Biometrika 71, 1, 1–10.