Existem duas condições que impedem a convergência das estimativas de probabilidade máxima para os coeficientes: separação completa e separação quase-completa.
Separação completa
Separação completa ocorre quando uma combinação linear dos preditores gera uma predição perfeita da variável de resposta. Por exemplo, no conjunto de dados a seguir, se X ≤ 4 então Y = 0. Se X > 4 então Y = 1.
| Y |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |
1 |
| X |
1 |
2 |
3 |
4 |
4 |
4 |
5 |
6 |
7 |
8 |

Separação quase completa
A separação quase completa é similar à separação completa. Os preditores geram uma predição perfeita da variável de resposta para a maior parte dos valores dos preditores, mas não todos. Por exemplo, no conjunto de dados anterior, onde x = 4, faça Y = 1 ao invés de 0. Agora, se X < 4 então Y = 0, se X > 4 então Y = 1, mas se X = 4 então Y poderia ser 0 ou 1. Essa sobreposição na parte central dos dados torna a separação quase completa.
| Y |
0 |
0 |
0 |
0 |
0 |
1 |
1 |
1 |
1 |
1 |
| X |
1 |
2 |
3 |
4 |
4 |
4 |
5 |
6 |
7 |
8 |

Causas e correção
Uma separação ocorre frequentemente quando o conjunto de dados é muito pequeno para se observar eventos com baixas probabilidades. Quanto mais preditores houver no modelo, mais provável será a separação porque os grupos individuais nos dados possuem tamanhos amostrais menores.
Embora o Minitab imprima uma advertência ao detectar separação, quanto mais preditores houver no modelo, mais difícil será identificar a causa da separação. A inclusão de termos de interação no modelo aumenta ainda mais essa dificuldade.
Quando as estimativas de probabilidade máxima não convergem devido à separação, considere as 5 estratégias a seguir:
- Aumente a quantidade de dados. A separação ocorre frequentemente quando existe uma categoria ou intervalo de um preditor com somente um valor de resposta. Um tamanho amostral maior aumenta a probabilidade de valores diferentes para a resposta.
- Considere o significado da separação. Embora a separação completa e a separação quase completa possam indicar que o tamanho amostral é muito pequeno, elas também podem indicar relações importantes. Se a probabilidade real de um evento em um certo nível ou combinação de níveis é próxima de 0 ou 1, essa informação é importante.
- Considere um modelo alternativo. Quanto mais termos estiverem no modelo, é mais provável que a separação ocorra por pelo menos uma variável. Ao selecionar os termos do modelo, você pode verificar se a exclusão de um termo permite que as estimativas da máxima verossimilhança convirjam. Se existir um modelo útil que não usa o termo, você pode continuar a análise com o novo modelo.
- Verifique se é possível combinar categorias em variáveis problemáticas. Se existem categorias que podem ser combinadas, a separação pode desaparecer do conjunto de dados. Por exemplo, suponha que "Fruta" seja uma variável no modelo. "Uva" não possui eventos porque o número de ensaios é baixo. Combinar "Uva" e "Laranjas" na categoria "Cítricos" elimina a separação.
^^^Table : 1. Dados com separação completa
| Fruta |
Eventos |
Ensaios |
| Grapefruit |
0 |
10 |
| Laranjas |
5 |
100 |
| Maçãs |
25 |
100 |
| Bananas |
40 |
100 |
^^^Table : 2. Dados com sobreposição
| Fruta |
Eventos |
Ensaios |
| Cítricos |
5 |
110 |
| Maçãs |
25 |
100 |
| Bananas |
40 |
100 |
- Verifique se uma variável categórica problemática é uma variável agregada. Se a relação da variável não agregada com a resposta não mostra separação completa, a substituição dos dados numéricos pode eliminar a separação. Por exemplo, suponha que "Tempo de serviço" seja uma variável agregada no modelo. Quando os dados estão em incrementos de 30 dias, o menor nível possui todos os eventos e o maior nível não tem eventos, criando uma separação completa. A substituição do número de dias no modelo elimina a separação.
^^^Table : 3. Dados com separação completa
| Categorias de tempo |
Eventos |
Ensaios |
| 1–90 |
2 |
2 |
| 91–180 |
1 |
2 |
| 181–270 |
1 |
2 |
| 271–360 |
0 |
2 |
| Comprimento exato |
Eventos |
Ensaios |
| 45 |
1 |
1 |
| 60 |
1 |
1 |
| 95 |
1 |
1 |
| 176 |
0 |
1 |
| 185 |
0 |
1 |
| 241 |
1 |
1 |
| 280 |
0 |
1 |
| 299 |
0 |
1 |
Leitura posterior
Para obter mais informações sobre separação, consulte Albert and J. A. Anderson (1984) "On the existence of maximum likelihood estimates in logistic regression models" Biometrika 71, 1, 1–10.