完全分離と準完全分離とは

係数の最尤推定値の収束を妨げる状況として、完全分離と準完全分離の2つがあります。

完全分離

完全分離は、予測変数の線形の組み合わせによって応答変数の完全な予測が実現する場合に起こります。たとえば、次のデータセットでX ≤ 4の場合はY = 0です。X > 4の場合はY = 1です。

Y 0 0 0 0 0 0 1 1 1 1
X 1 2 3 4 4 4 5 6 7 8

準完全分離

準完全分離は完全分離と類似します。予測変数は、すべてではないもののほとんどの予測変数に対する応答変数の予測を完全にします。たとえば、前回のデータセットでは、値の1つがX = 4の場合、Y = 0ではなくY = 1とします。X < 4の場合はY = 0、X > 4の場合はY = 1ですが、X = 4の場合、Yは0か1になります。データの真ん中の範囲のこの重なりは、分離を準完全にします。

Y 0 0 0 0 0 1 1 1 1 1
X 1 2 3 4 4 4 5 6 7 8

原因と修正

多くの場合、低確率の事象を観測するのにデータセットが小さすぎる場合に分離が発生します。モデルに含まれる予測変数が多いほど、データ内の個別グループのサンプルサイズが小さくなるため、分離が発生する可能性が高くなります。Minitabでは、厳密に0または1ではない、非常に大きな確率または非常に小さな確率(1兆分の1未満など)の場合は、モデルの収束に失敗する可能性があります。

分離が検出されると警告が表示されますが、モデルに含まれる予測変数が多いほど、分離の原因の特定が難しくなります。モデルに交互作用項が含まれる場合、原因の特定がさらに難しくなります。

分離が原因で最尤推定値の収束に失敗した場合は、次の5つの方法を検討してください。
  1. データの量を増やす。多くの場合、応答の1つの値のみが含まれる予測変数のカテゴリまたは範囲がある場合に分離が発生します。サンプルサイズが大きいほど、応答に異なる値が含まれる確率が高くなります。
  2. 分離が示唆する内容を検討します。完全分離と準完全分離はサンプルサイズが小さすぎることを示す可能性がありますが、重要な関係を示す可能性もあります。特定の水準または水準の組み合わせでの事象の真の確率が0または1に近い場合、この情報が重要になります。
  3. 代わりのモデルを検討します。モデル内の項が多いほど、少なくとも1つの変数で分離が発生する確率は高くなります。モデルの項を選択する場合、項の除外により最尤推定値が収束するかどうかをチェックできます。項を使用しない有用なモデルが存在する場合、新しいモデルを使用して分析を継続できます。
  4. 問題のある変数のカテゴリを組み合わせることができるかどうかを確認します。組み合わせに適した複数のカテゴリが存在する場合、データセットから分離を排除できる可能性があります。たとえば、「果物」がモデル内の変数であるとします。試行回数が少ないため、「グレープフルーツ」には事象がありません。「グレープフルーツ」と「オレンジ」をカテゴリ「かんきつ類」に組み合わせることで、分離が排除されます。
    表 1. 完全分離のあるデータ
    果物 事象 試行
    グレープフルーツ 0 10
    オレンジ 5 100
    りんご 25 100
    バナナ 40 100
    表 2. 重なりのあるデータ
    果物 事象 試行
    かんきつ類 5 110
    りんご 25 100
    バナナ 40 100
  5. 問題のあるカテゴリ変数が集約変数であるかどうかを確認します。応答に対する非集約変数の関係で完全分離が示されない場合、数値データを置換することで分離が排除される可能性があります。たとえば、「雇用期間」がモデル内の集約変数であるとします。データが30日ごとに増分する場合、最低水準にすべての事象が含まれ、最高水準には事象が含まれないため、完全分離が発生します。モデル内の日数を置換することで、分離が排除されます。
    表 3. 完全分離のあるデータ
    長さのカテゴリ 事象 試行
    1–90 2 2
    91–180 1 2
    181–270 1 2
    271–360 0 2
    正確な長さ 事象 試行
    45 1 1
    60 1 1
    95 1 1
    176 0 1
    185 0 1
    241 1 1
    280 0 1
    299 0 1

参考文献

分離の詳細については、Albert、J. A. Anderson(1984)、「On the existence of maximum likelihood estimates in logistic regression models」Biometrika第71巻1号、1–10頁を参照してください。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください