2値適合線プロットの適合値と診断

適合値と診断の定義と解釈について解説します。

適合値

適合値は事象確率または予測確率とも呼ばれます。事象確率は、特定の結果または事象が発生する確率です。事象確率は、1組のトランプからエースを引いたり、不適合部品が生産されるなどの事象が起こる尤度を推定します。事象確率の範囲は、0(不可能)から1(確実)です。

解釈

2値ロジスティック回帰で、応答変数が取り得る値は、たとえば特定の病気が「存在する」か「存在しない」かなど、2つだけです。事象確率は、与えられた因子か共分散のパターンの応答が事象に対して1になる尤度(50歳以上の女性が2型糖尿病になる尤度など)のことです。

実験における各実行を試行と呼びます。たとえば、硬貨を10回投げて表が出た回数を記録する場合、実験において10回の試行を実行すると言います。試行が独立しており尤度が同じであれば、事象確率は事象数を試行総数で割ることによって得られます。たとえば、硬貨を10回投げて表が出た回数が6であった場合、事象(表が出る)の推定確率は次のようになります。

事象数 ÷ 試行回数 = 6 ÷ 10 = 0.6

順位ロジスティック回帰および名義ロジスティック回帰では、応答変数に3つ以上のカテゴリがある場合があります。事象確率は、与えられた因子か共分散のパターンが、特定の応答カテゴリを持つ尤度です。累積事象確率は、与えられた因子・共変量パターンの応答がカテゴリk以下となる尤度を、可能なkのそれぞれについて計算したものです(kは応答カテゴリ1…kです)。

残差

残差は、どの程度観測値がモデルで予測できるかの指標となります。観測値へのモデルの適合度が低いときに、残差が大きくなります。異なる因子・共変量パターンごとに残差が計算されます。

解釈

残差をプロットし、モデルが適切であり、回帰仮定が満たされているかどうかを確認できます。残差を調べることにより、データに対するモデルの適合度に関して有用な情報を得ることができます。一般に、残差は0付近にランダムに分布し、明確なパターンや異常値がありません。Minitabが、データに異常な観測値が含まれていると判断した場合は、これらの観測値が特定された、異常な観測値の適合値と診断の表が出力されます。異常な値に関する詳細は、異常な観測値を参照してください。

標準化残差

標準化残差は、残差(ei)をその標準偏差の推定値で割ったものです。

解釈

標準化残差を使用すると、外れ値を検出しやすくなります。2より大きく、-2より小さい標準化残差は、通常は大きなものであると見なされます。異常な観測値の適合値と診断の表では、これらの観測値が「R」で示されます。分析により異常値が多数見つかった場合、通常モデルは有意な不適合を示します。つまり、そのモデルは十分に因子と応答変数の関係を説明しきれていないことになります。詳細は異常な観測値を参照してください。

標準化残差が役に立つのは、生の残差が外れ値を識別するものとして許容されない場合があるためです。生の残差の分散は、それに関連づけられたx値によって異なることがあります。この尺度が等しくないため、生データの残差のサイズを評価するのは困難です。残差を標準化することで、異なる分散が共通の尺度に変換され、この問題は解消されます。