回帰分析と分散分析に外れ値を特定する方法

モデル適合分析のコンテキストでは、外れ値は平均応答または予測変数の値よりも大きい観測値です。Minitabには外れ値を識別するために複数の方法が用意されています。これには、残差プロットおよび3つの保存された統計量(てこ比、クックの距離、DFITS)があります。外れ値を識別することは重要です。外れ値はモデルに著しい影響を与え、誤った、または正しくない結果をもたらす可能性があるからです。データに外れ値があった場合、観測値を調べて異常な理由を理解し、適切な改善方法を特定する必要があります。
Hi (てこ比)

てこ比(Hi)では、観測値のx値からデータセット内のすべての観測値のx値の平均までの距離を測定します。他のデータと比べて異常な予測値を持つ観測値を識別するために使用します。

大きなてこ比を使用する観測値は適合値に大きな影響を与える可能性があるため、回帰モデルに大きな影響を与える可能性があります。たとえば、てこ比が大きい観測値は、有意な係数が有意に見えない原因になることがあります。ただし、すべてのてこ比点が異常な観測値であるとは限りません。

3p/nより大きなてこ比を持つ観測値(pは定数も含めたモデルの項の数、nは観測値数)を調べることをお勧めします。Minitabの異常な観測値の表では、観測値のてこ比値が3p/nまたは0.99のいずれか小さい方を超えていることがXという文字によって示されます。

Cookの距離 (D)

幾何学的には、クックの距離は、i番目の観測値を使用して計算された係数と観測値を使用しないで計算された係数との間の距離に対する測度です。他のデータと比べて異常な予測値を持つ観測値や、モデルがあまり適合できない観測値を識別するために使用します。大きなCookの距離を使用する観測値は適合値に大きな影響を与える可能性があるため、回帰モデルに大きな影響を与える可能性があります。

F分布の中央値であるF(0.5, p, n-p)よりもD値が大きい場合の観測値を調べます。ここで、pはモデル項の数(定数も含む)で、nは観測値の数です。距離の値を調べる別の方法は、折れ線グラフを使用して、距離の値同士をグラフで比較することです。他の観測値と関係のある、距離の値が大きい観測値は影響がある可能性があります。

DFITS

DFITSは、各観測値をデータセットから取り除きモデルを再度適合させたときに適合値が変化するおおよその標準偏差を表します。他のデータと比べて異常な予測値を持つ観測値や、モデルがあまり適合できない観測値を識別するために使用します。大きなDFITSの値を使用する観測値は適合値に大きな影響を与える可能性があるため、回帰モデルに大きな影響を与える可能性があります。

観測値のDFITS値が2*sqrt(p / n)よりも大きい場合は、調査が必要です(pはモデル項数(定数を含む)で、nは観測値の数)。DFITSの値を調べる別の方法は、時系列プロットまたは折れ線グラフを使用してDFITSの値同士を比較することです。他の観測値と関連のある、DFITSの値が大きい観測値は影響がある可能性があります。

異常な観測値が与える影響度を判断するには、観測値ありの場合となしの場合でモデルの適合を調べ、係数、p値、R2、および他のモデル情報と比較します。異常な観測値を除外したときにモデルが大きく変化する場合は、まず観測値がデータ入力エラーまたは測定エラーでないかどうかを調べます。そうでない場合は、重要な項(交互作用項など)や変数を省略していないか、またはモデルを誤って指定していないかを調べます。問題を解決するには、より多くのデータが必要になることもあります。