係数の最尤推定値の収束を妨げる状況として、完全分離と準完全分離の2つがあります。
完全分離は、予測変数の線形の組み合わせによって応答変数の完全な予測が実現する場合に起こります。たとえば、次のデータセットでX ≤ 4の場合はY = 0です。X > 4の場合はY = 1です。
Y | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 |
X | 1 | 2 | 3 | 4 | 4 | 4 | 5 | 6 | 7 | 8 |
準完全分離は完全分離に似ています。予測変数はほとんどの予測変数について応答変数の完全な予測を実現しますが、すべてではありません。たとえば、前のデータセットでX = 4の値の1つでYが0ではなく1であるとします。この場合、X < 4の場合はY = 0、X > 4の場合はY = 1ですが、X = 4の場合はYは0または1になります。このデータの中間域における重なりにより、分離が準完全になります。
Y | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
X | 1 | 2 | 3 | 4 | 4 | 4 | 5 | 6 | 7 | 8 |
多くの場合、低確率の事象を観測するのにデータセットが小さすぎる場合に分離が発生します。モデルに含まれる予測変数が多いほど、データ内の個別グループのサンプルサイズが小さくなるため、分離が発生する可能性が高くなります。
分離が検出されると警告が表示されますが、モデルに含まれる予測変数が多いほど、分離の原因の特定が難しくなります。モデルに交互作用項が含まれる場合、原因の特定がさらに難しくなります。
果物 | 事象 | 試行 |
---|---|---|
グレープフルーツ | 0 | 10 |
オレンジ | 5 | 100 |
りんご | 25 | 100 |
バナナ | 40 | 100 |
果物 | 事象 | 試行 |
---|---|---|
かんきつ類 | 5 | 110 |
りんご | 25 | 100 |
バナナ | 40 | 100 |
長さのカテゴリ | 事象 | 試行 |
---|---|---|
1–90 | 2 | 2 |
91–180 | 1 | 2 |
181–270 | 1 | 2 |
271–360 | 0 | 2 |
正確な長さ | 事象 | 試行 |
---|---|---|
45 | 1 | 1 |
60 | 1 | 1 |
95 | 1 | 1 |
176 | 0 | 1 |
185 | 0 | 1 |
241 | 1 | 1 |
280 | 0 | 1 |
299 | 0 | 1 |
分離に関する詳細は、Albert、J. A. Anderson(1984年)「On the existence of maximum likelihood estimates in logistic regression models」『Biometrika』71巻1号、1~10ページ