회귀 분석의 정의

회귀 분석은 하나 이상의 예측 변수와 반응 변수 사이의 통계적인 관계를 설명하고 새 관측치를 예측하는 방정식을 생성합니다. 선형 회귀 분석에서는 일반적으로 제곱 잔차 합을 최소화하여 방정식을 유도하는 범용 최소 제곱 추정방법을 사용합니다.

예를 들어, 한 감자 칩 회사에서 배송 전에 용기당 부스러진 감자 칩의 백분율(반응 변수)에 영향을 미치는 요인을 분석하려고 합니다. 다른 성분 및 조리 온도(섭씨)에 상대적인 감자의 백분율을 예측 변수로 포함하는 회귀 분석을 수행하고자 합니다. 결과 표는 다음과 같습니다.

회귀 분석: 부스러진 조각 대 감자의 백분율, 조리 온도

회귀 방정식 부스러진 조각 = 4.251 - 0.909 감자의 백분율 + 0.02231 조리 온도
계수 항 계수 SE 계수 T-값 P-값 VIF 상수 4.251 0.659 6.45 0.000 감자의 백분율 -0.909 0.331 -2.74 0.011 1.03 조리 온도 0.02231 0.00332 6.71 0.000 1.03
모형 요약 S R-제곱 R-제곱(수정) R-제곱(예측) 0.115034 66.41% 63.61% 57.96%
회귀 분석 결과는 예측 변수 두 개가 모두 p-값이 낮기 때문에 유의함을 보여줍니다. 두 개의 예측 변수가 함께 부스러진 감자 칩 분산의 66.41%를 설명합니다. 구체적으로 다음과 같습니다.
  • 조리 온도가 섭씨 1도씩 증가할 때마다 부스러진 감자 칩의 백분율이 0.022% 증가할 것으로 예측됩니다.
  • 감자 0.5(50%)와 조리 온도 175°C 설정의 경우 부스러진 감자 칩 백분율을 예측하려면 7.7%의 부스러진 감자 칩 기대값을 계산합니다: 4.251 - 0.909 * 0.5 + 0.2231 * 175 = 7.70075.
회귀 분석 결과에서는 예측 변수와 반응 사이의 관계에 대한 방향, 크기 및 통계적 유의성을 나타냅니다.
  • 상관 계수의 부호는 관계의 방향을 나타냅니다.
  • 상관 계수는 다른 예측 변수가 상수로 고정된 상태에서 예측 변수의 각 단위 변경에 대한 평균 반응 변경을 나타냅니다.
  • 각 상관 계수의 p-값은 상관 계수가 0(효과 없음)인 귀무 가설을 검정합니다. 따라서 낮은 p-값은 예측 변수가 모형에 유의한 추가임을 나타냅니다.
  • 방정식은 지정된 예측 변수 값이 주어진 새 관측치를 예측합니다.
참고

예측 변수가 하나인 모형은 단순 선형 회귀 분석이라고 합니다. 예측 변수가 두 개 이상인 모형은 다중 회귀 분석이라고 합니다.

단순 선형 회귀

단순 선형 회귀 분석에서는 두 개의 계량형 변수, 즉 하나의 반응 변수(y)와 하나의 예측 변수(x) 사이의 선형 관계를 조사합니다. 두 변수가 연관되어 있으면 단순 추측보다 높은 정확성으로 예측 변수로부터 반응 변수 값을 예측할 수 있습니다.

회귀 분석을 통해 데이터를 "가장 잘" 적합하는 선을 얻을 수 있습니다. 이 선을 사용하여 다음을 수행할 수 있습니다.
  • 예측 변수의 변경에 따른 반응 변수의 변경 정도를 조사합니다.
  • 예측 변수(x)에 대한 반응 변수(y) 값을 예측합니다.

다중 선형 회귀 분석

다중 선형 회귀 분석에서는 하나의 계량형 반응 변수와 둘 이상의 예측 변수 사이의 선형 관계를 조사합니다.

예측 변수가 많으면 모든 예측 변수를 포함한 회귀 모형을 적합하기 전에 단계적 또는 최량 부분 집합 모형 선택 방법을 사용하여 반응 변수와 관련이 없는 예측 변수를 제거해야 합니다.

범용 최소제곱법의 정의

범용 최소제곱법에서 추정된 방정식은, 표본의 데이터 점과 방정식에 의해 예측된 값 사이의 거리 제곱합을 최소화하는 방정식을 결정함으로써 계산됩니다.

반응 대 예측 변수

예측 변수가 하나일 때(단순 선형 회귀 분석) 각 점에서 선에 이르는 거리의 제곱합은 가능한 만큼 작아집니다.

범용 최소제곱법의 경우 충족되어야 하는 가정

범용 최소제곱법은 다음과 같은 가정들이 충족될 때 가장 정확하고 치우침이 없는 추정치를 제공합니다.
  • 회귀 모형이 계수에서 선형입니다. 최소제곱법이 (계수가 아니라) 변수를 변환하여 곡면성을 모형화할 수 있습니다. 곡면성을 모형화하려면 적절한 함수 형식을 지정해야 합니다.
    2차 모형

    여기서는 곡면성을 모형화하기 위해 예측 변수 X를 제곱합니다. Y = bo + b1X + b2X2

  • 잔차의 평균이 0입니다. 모형에 상수를 포함하면 평균이 0과 같아집니다.
  • 모든 예측 변수가 잔차와 상관되지는 않습니다.
  • 잔차가 서로 상관(계열 상관)되지 않습니다.
  • 잔차의 분산이 일정합니다.
  • 어떤 예측 변수도 다른 예측 변수와 완전히 상관되지 않습니다(r=1). 불완전하게 높은 상관(다중 공선성)도 피하는 것이 좋습니다.
  • 잔차가 정규 분포를 따릅니다.

이러한 가정을 모두 충족할 경우에만 범용 최소제곱법이 최적의 추정치를 제공하므로, 이 가정들을 검사하는 것이 아주 중요합니다. 일반적인 방법은 잔차 그림을 검사하고 적합성 결여 검정을 사용하며 분산 팽창 인수(VIF)를 사용하여 예측 변수 간의 상관 여부를 확인하는 것입니다.