회귀 분석은 하나 이상의 예측 변수와 반응 변수 사이의 통계적인 관계를 설명하고 새 관측치를 예측하는 방정식을 생성합니다. 선형 회귀 분석에서는 일반적으로 제곱 잔차 합을 최소화하여 방정식을 유도하는 범용 최소 제곱 추정방법을 사용합니다.
예를 들어, 한 감자 칩 회사에서 배송 전에 용기당 부스러진 감자 칩의 백분율(반응 변수)에 영향을 미치는 요인을 분석하려고 합니다. 다른 성분 및 조리 온도(섭씨)에 상대적인 감자의 백분율을 예측 변수로 포함하는 회귀 분석을 수행하고자 합니다. 결과 표는 다음과 같습니다.
예측 변수가 하나인 모형은 단순 선형 회귀 분석이라고 합니다. 예측 변수가 두 개 이상인 모형은 다중 회귀 분석이라고 합니다.
단순 선형 회귀 분석에서는 두 개의 계량형 변수, 즉 하나의 반응 변수(y)와 하나의 예측 변수(x) 사이의 선형 관계를 조사합니다. 두 변수가 연관되어 있으면 단순 추측보다 높은 정확성으로 예측 변수로부터 반응 변수 값을 예측할 수 있습니다.
다중 선형 회귀 분석에서는 하나의 계량형 반응 변수와 둘 이상의 예측 변수 사이의 선형 관계를 조사합니다.
예측 변수가 많으면 모든 예측 변수를 포함한 회귀 모형을 적합하기 전에 단계적 또는 최량 부분 집합 모형 선택 방법을 사용하여 반응 변수와 관련이 없는 예측 변수를 제거해야 합니다.
범용 최소제곱법에서 추정된 방정식은, 표본의 데이터 점과 방정식에 의해 예측된 값 사이의 거리 제곱합을 최소화하는 방정식을 결정함으로써 계산됩니다.
예측 변수가 하나일 때(단순 선형 회귀 분석) 각 점에서 선에 이르는 거리의 제곱합은 가능한 만큼 작아집니다.
여기서는 곡면성을 모형화하기 위해 예측 변수 X를 제곱합니다. Y = bo + b1X + b2X2
이러한 가정을 모두 충족할 경우에만 범용 최소제곱법이 최적의 추정치를 제공하므로, 이 가정들을 검사하는 것이 아주 중요합니다. 일반적인 방법은 잔차 그림을 검사하고 적합성 결여 검정을 사용하며 분산 팽창 인수(VIF)를 사용하여 예측 변수 간의 상관 여부를 확인하는 것입니다.