회귀 및 분산 분석에서 특이치를 식별하는 방법

모형 적합 분석의 측면에서 특이치는 평균 반응 또는 예측 변수 값보다 훨씬 큰 관측치입니다. Minitab에서는 잔차 그림과 아래에서 설명하는 세 가지 저장 통계량인 특이치를 식별할 수 있습니다. 특이치가 있으면 결과가 잘못되는 등 모형에 상당한 영향을 미칠 수 있으므로 특이치를 식별하는 것은 중요합니다. 데이터의 특이치를 식별하는 경우 해당 값이 왜 비정상적인지 이해하고 적절한 개선책을 파악하려면 관측치를 조사해야 합니다.

Hi(레버리지)

레버리지(Hi)는 한 관측치의 x-값으로부터 데이터 집합 내 모든 관측치의 평균 x-값까지의 거리를 나타냅니다. 나머지 데이터에 비해 비정상적인 예측 변수 값을 갖는 관측치를 식별하기 위해 사용합니다.

레버리지가 큰 관측치는 적합치에 상당한 영향을 미칠 수 있으므로 회귀 모형에도 상당한 영향을 미칠 수 있습니다. 예를 들어, 레버리지가 큰 관측치로 인해 유의한 계수가 유의하지 않은 것으로 보일 수 있습니다. 그러나 모든 레버리지 점이 비정상적인 관측치인 것은 아닙니다.

레버리지 값이 3p/n보다 큰 관측치를 조사하는 데, 여기서 p는 모형 항 수(상수 포함)이고 n은 관측치 수입니다. 레버리지 값이 3p/n과 0.99 중 작은 수보다 큰 관측치를 식별합니다. 이러한 관측치는 비정상 관측치 표에 X로 표시되어 있습니다.

Cook의 거리(D)

기하학적으로 Cook의 거리는 i번째 관측치를 포함하여 계산한 적합치와 i번째 관측치를 포함하지 않고 계산한 적합치 사이의 거리 측도입니다. 나머지 데이터에 비해 비정상적인 예측 변수 값을 갖는 관측치 모형이 잘 적합시키는 못하는 관측치를 식별하기 위해 사용합니다. Cook의 거리가 큰 관측치는 적합치에 상당한 영향을 미칠 수 있으므로 회귀 모형에도 상당한 영향을 미칠 수 있습니다.

D가 F-분포의 중위수 F(0.5, p, n-p)보다 큰 관측치를 조사하는 데, 여기서 p는 모형 항 수(상수 포함)이고 n은 관측치 수입니다. 거리 값을 조사하는 한 가지 다른 방법은 선 그림을 사용하여 거리 값을 서로 그래픽 방식으로 비교하는 것입니다. 다른 관측치에 비해 거리 값이 큰 관측치는 영향 관측치일 가능성이 있습니다.

DFITS

DFITS는 각 관측치를 데이터 집합에서 제거하고 모형을 다시 적합시킬 때 적합치가 변하는 표준 편차의 개수를 대략적으로 나타냅니다. 나머지 데이터에 비해 비정상적인 예측 변수 값을 갖는 관측치 모형이 잘 적합시키는 못하는 관측치를 식별하기 위해 사용합니다. DFITS 값이 큰 관측치는 적합치에 상당한 영향을 미칠 수 있으므로 회귀 모형에도 상당한 영향을 미칠 수 있습니다.

DFITS 값이 2*sqrt(p / n)보다 큰 관측치를 조사하는 데, 여기서 p는 모형 항 수(상수 포함)이고 n은 관측치 수입니다. DFITS 값을 조사하는 한 가지 다른 방법은 시계열도와 선 그림을 사용하여 DFITS 값을 서로 그래픽 방식으로 비교하는 것입니다. 다른 관측치에 비해 DFITS 값이 큰 관측치는 영향 관측치일 가능성이 있습니다.

비정상적인 관측치 영향의 정도를 판단하려면 관측치를 포함한 상태와 포함하지 않은 상태에서 모형을 적합시킨 다음 계수와 p-값, R², 기타 정보를 비교합니다. 영향력 있는 관측치를 제거한 경우 모형이 크게 달라지면, 데이터 입력 오류로 인한 관측치인지 측정 오류로 인한 관측치인지 먼저 확인합니다. 크게 달라지지 않는 경우, 중요한 항(예를 들어, 교호작용 항)이나 변수를 누락시키지 않았는지 또는 모형을 잘못 지정하지 않았는지 확인합니다. 처리 방법을 결정하기 위해 데이터를 더 많이 수집해야 할 수도 있습니다.