外れ値とは

外れ値とは、異常に大きいまたは小さい観測値を指します。外れ値は平均などの統計結果に不均衡な影響を与えるため、データの解釈を誤る可能性があります。たとえば、1、2、3および34の4つの値を含むデータセットについて考えてみます。極端な値34の影響を大きく受けたため、平均値は10となり、データの大多数(1、2、3)よりも高い値になっています。この場合、平均値を出したため、データ値が実際よりも大きく見えています。外れ値を詳しく調べると、データや工程に有効な情報を得ることができます。多くの場合、データをグラフ化して外れ値を識別するのが最も簡単です。

グラフを使用した外れ値の識別

箱ひげ図では、Minitabはアスタリスク記号(*)を使用して外れ値を識別します。これらの外れ値は、箱のエッジから四分位間範囲(Q3~Q1)の1.5倍以上の観測値です。

この箱ひげ図には、2つの外れ値があります。

散布図で、他の点から大きく離れた点は外れ値の可能性があります。

この散布図で、外れ値の可能性があるのは1つです。

場合によっては、1つのグラフで外れ値とされても異なるグラフでは外れ値であることが明らかでない場合もあるため、複数の種類のグラフを調べる必要があります。箱ひげ図とヒストグラムでは同じデータを使用しています。外れ値は箱ひげ図では明らかですが、ヒストグラムでは明らかではありません。

外れ値の典型的な原因

外れ値の典型的な原因には次のようなものがあります。
原因 考えられる対策
データ入力ミス 間違いを修正してデータを再分析します。
工程の問題 工程を調べて外れ値の原因を特定します。
因子の欠損 工程に影響を与える因子を考慮し忘れていないかどうか判断します。
ランダムな偶然 工程と外れ値を調べて、外れ値の原因が偶然かどうか判断します。外れ値を含めた状態と取り除いた状態で分析を実施し、結果への影響を確認します。