有两种情况会阻止系数的极大似然估计值的收敛:完全分离和几乎完全分离。
当预测变量的线性组合生成完美的响应变量预测时,会发生完全分离。例如,在下面的数据集中,如果 X ≤ 4,则 Y = 0。如果 X > 4,则 Y = 1。
Y | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 |
X | 1 | 2 | 3 | 4 | 4 | 4 | 5 | 6 | 7 | 8 |
几乎完全分离与完全分离类似。预测变量可以为大多数(并非全部)预测变量值生成完美的响应变量预测。例如,在上一个数据集中,对于其中一个值,如果 X = 4,则让 Y = 1 而不是 0。现在,如果 X < 4,则 Y = 0;如果 X > 4,则 Y = 1;但如果 X = 4,则 Y 可能为 0 或 1。数据中间范围的重叠形成几乎完全分离。
Y | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
X | 1 | 2 | 3 | 4 | 4 | 4 | 5 | 6 | 7 | 8 |
通常情况下,当数据集太小而无法观测概率低的事件时,会发生分离。模型中的预测变量越多,就越可能发生分离,因为数据中的单个组的样本数量较小。
虽然 Minitab 会在发现分离时生成警告,但模型中的预测变量越多,发现产生分离的原因就越困难。模型中包含的交互作用项会加剧这一难度。
水果 | 事件数 | 试验数 |
---|---|---|
葡萄柚 | 0 | 10 |
橘子 | 5 | 100 |
苹果 | 25 | 100 |
香蕉 | 40 | 100 |
水果 | 事件数 | 试验数 |
---|---|---|
柑橘 | 5 | 110 |
苹果 | 25 | 100 |
香蕉 | 40 | 100 |
长度类别 | 事件数 | 试验数 |
---|---|---|
1–90 | 2 | 2 |
91–180 | 1 | 2 |
181–270 | 1 | 2 |
271–360 | 0 | 2 |
确切长度 | 事件数 | 试验数 |
---|---|---|
45 | 1 | 1 |
60 | 1 | 1 |
95 | 1 | 1 |
176 | 0 | 1 |
185 | 0 | 1 |
241 | 1 | 1 |
280 | 0 | 1 |
299 | 0 | 1 |
有关分离的更多信息,请参考 Albert 和 J. A. Anderson (1984),“On the existence of maximum likelihood estimates in logistic regression models”(Logistic 回归模型中是否存在极大似然估计),Biometrika 第 71 卷,第 1 期,第 1–10 页。