비정상적 관측치의 정의

비정상적 관측치(영향력 있는 관측치라고도 함)는 회귀 분석이나 분산 분석 모형에서 불균형적인 영향을 미치는 관측치입니다. 비정상적 관측치는 잘못된 결과를 초래할 수 있기 때문에 제대로 식별하는 것이 중요합니다. 예를 들어, 비정상적 관측치로 인해 유의한 계수가 유의하지 않은 것으로 보일 수 있습니다.

비정상적 관측치는 다음과 같습니다.
  • 레버리지 점. x-방향으로 극단 값을 나타냅니다.
  • 특이치(큰 잔차). 적합 회귀선에 비해 y-방향으로 극단값을 나타냅니다.

비정상적 관측치 식별

비정상적 관측치를 식별하기 위해서는 레버리지 값과 잔차, Cook의 D, DFITS 등의 진단 측도를 검사해야 합니다. 이러한 통계량의 값이 크면 한 관측치가 비정상적일 수도 있다는 것을 나타냅니다. Minitab은 또한 아래 표와 같이 비정상적 관측치의 적합치 및 진단 표에서 극단 레버리지 값이나 잔차 값(특이치)을 갖는 관측치에 레이블을 붙입니다.
  • X는 레버리지 값이 큰 점을 나타냅니다. Minitab에서는 3 * 모형 항의 수/관측치의 수보다 큰 레버리지 값과 0.99보다 큰 레버리지 값 중 작은 쪽을 표시합니다.
  • R는 극단 표준화 잔차를 나타냅니다. Minitab에서는 절대값이 2보다 큰 표준화 잔차에 레이블을 붙입니다.

Minitab에서 표시된 관측치는 제시된 회귀 방정식을 잘 따르지 않습니다. 그러나 몇 개의 관측치는 비정상적일 것이라고 예상됩니다. 예를 들어, 큰 잔차에 대한 기준을 바탕으로, 관측치의 약 5%는 큰 잔차를 가지는 것으로 표시될 것입니다.

비정상적 관측치 표의 예

비정상적 관측치에 대한 적합치 및 진단 표준화 관측 열량 적합치 잔차 잔차 1 271.80 274.74 -2.94 -0.40 X 22 254.50 230.91 23.59 2.74 R R 큰 잔차 X 비정상적인 X

위의 결과에서 관측치 1은 X로 표시되어 있는데, 이는 레버리지 점입니다. 관측치 22는 R로 표시되어 있는데, 이는 특이치입니다.

비정상적 관측치가 모형에 어떤 영향을 미치는지 확인

비정상적인 관측치에 미치는 영향의 정도를 판단하려면 관측치를 포함한 상태와 관측치를 포함하지 않은 상태에서 모형을 적합시킨 다음 계수와 p-값, R2, 기타 정보를 비교합니다. 비정상적인 관측치를 제거한 경우 모형이 크게 달라지면 데이터 입력 오류로 인한 관측치인지 측정 오류로 인한 관측치인지 먼저 확인합니다. 모형이 크게 달라지지 않는 경우 모형을 추가로 검사하여 중요한 항(예를 들어, 교호작용 항)이나 변수를 누락시키지 않았는지 또는 모형을 잘못 지정하지 않았는지 확인합니다. 처리 방법을 결정하기 위해 데이터를 더 많이 수집해야 할 수도 있습니다.