異常な観測値とは

異常な観測値(影響力のある観測値とも呼ばれる)とは、回帰モデルまたは分散分析モデルに対して不均衡な影響を持つ観測値です。異常な観測値は、紛らわしい結果を導き出す可能性があるため検出しておく必要があります。たとえば、異常な観測値によって有意な係数が有意ではないように見える場合があります。

異常な観測値は、次のいずれかまたはその両方に分類できます。
  • X軸方向に極端に伸びているてこ比
  • 適合する回帰直線に相対してY軸方向に極端に現れている外れ値(大きな残差)

異常な観測値を識別する

異常な観測値を識別するには、てこ比値、残差、クックの距離、DFITSなどの診断測度を調べます。これらの統計量の値が大きい場合は、観測値が異常なものである可能性があります。Minitabでは、次に示すように、極端なてこ比値または残差値を持つ観測値(外れ値)を異常な観測値の適合値と診断表に表示します。
  • Xは、大きなてこ比の値を持つ点を示します。Minitabは、3*モデルの項数/観測値数より大きいてこ比値、または0.99より大きいてこ比値のいずれか小さい方にラベルをつけます。
  • Rは、過度な標準化残差を表します。Minitabは、絶対値が2より大きい標準化残差にラベルをつけます。

ラベルがつけられた観測値は、提示された回帰式にしっかりとは従っていません。ただし、いくつかの異常な観測値があることは予測されています。たとえば、大きな残差の基準に基づくと、観測値の約5%は大きな残差を持つとしてフラグがつけられることが予測されます。

異常な観測値の表の例

異常な観測値の適合値と診断 標準化 観測値 熱流量 適合値 残差 残差 1 271.80 274.74 -2.94 -0.40 X 22 254.50 230.91 23.59 2.74 R R 大きな残差 X 異常なX

前の出力で、観測値1はXを付けて表され、てこ比点であることがわかります。観測値22はRをつけて表されているため、外れ値です。

異常な観測値がモデルへどのような影響を与えるかを判断する

その異常な観測値の影響力を判断するには、観測値有り、無しのモデルを適合し、係数、p値、R2、その他のモデルパラメータを比較します。異常な観測値を除外したときにモデルが大きく変化する場合は、まず観測値がデータ入力エラーまたは測定エラーでないかどうかを調べます。そうでない場合は、重要な項(交互作用項など)や変数を省略していないか、またはモデルを誤って指定していないかを調べます。問題を解決するには、より多くのデータが必要になることもあります。