회귀 계수는 예측 변수와 반응 변수 간의 관계 크기와 방향을 설명합니다. 계수는 회귀 방정식에서 항의 값에 곱하는 숫자입니다.
항의 계수는 모형의 다른 항이 상수로 고정된 상태에서 해당 항의 변화와 연관된 평균 반응의 변화를 나타냅니다. 계수의 부호는 항과 반응 간 관계의 방향을 나타냅니다. 계수 크기는 일반적으로 하나의 항이 반응 변수에 미치는 영향의 실제적 유의성을 평가하는 좋은 방법입니다. 그러나 유의성에 대한 계산에서는 반응 데이터의 변동도 고려하기 때문에 계수 크기는 항이 통계적으로 유의한지 여부를 나타냅니다. 통계적 유의성을 확인하려면 항에 대한 p-값을 조사하십시오.
항의 계수는 해당 항의 한 단위 변화에 대한 평균 반응의 변화를 나타냅니다. 계수가 음수이면 항이 증가함에 따라 반응의 평균 값이 감소합니다. 계수가 양수이면 항이 증가함에 따라 반응의 평균 값이 증가합니다.
예를 들어, 한 관리자가 회귀 모형 y = 130 + 4.3x1 + 10.1x2를 사용하여 직원의 작업 기술 검정 점수를 예측할 수 있는지 확인합니다. 방정식에서 x1은 사내 교육 시간(0-20)입니다. 변수 x2는 직원에게 멘토가 있는 경우 1, 직원에게 멘토가 없는 경우 0인 범주형 변수입니다. 반응은 y이고 검정 점수입니다. 계량형 변수 교육 시간에 대한 계수는 4.3으로, 이는 1시간 교육에 대해 평균 검정 점수가 4.3점 높아진다는 것을 나타냅니다. (0, 1) 코드화 방법을 사용하는 경우, 범주형 변수 멘토링에 대한 계수는 멘토가 있는 직원의 점수가 멘토가 없는 직원의 점수보다 평균 10.1점 높다는 것을 나타냅니다.
Minitab에서는 모형의 계량형 변수에 대해 다양한 방법을 사용하여 선형 모형을 적합할 수 있습니다. 이러한 코드화 방법은 추정 과정 및 결과의 해석을 개선할 수 있습니다. 또한 코드화된 단위에 따라 각 항이 반응의 유의한 예측 변수인지 여부를 확인하는 데 사용되는 통계 검정의 결과가 변경될 수 있습니다. 모형에서 코드화된 단위를 사용하면 분석에서 코드화된 계수를 생성합니다.
계수의 표준 오차는 동일한 모집단에서 반복해서 표본을 추출하는 경우 얻을 수 있는 계수 추정치 간의 변동성을 추정합니다. 이 계산에서는 반복해서 표본을 추출해도 추정할 표본 크기와 계수가 변경되지 않는다고 가정합니다.
계수 표준 오차를 사용하여 계수 추정치의 정확도를 측정할 수 있습니다. 표준 오차가 작을수록 추정값의 정확도가 높아집니다. 계수를 표준 오차로 나누면 t-값이 계산됩니다. 이 t-통계량과 관련된 p-값이 유의 수준보다 작은 경우 계수가 통계적으로 유의하다는 결론을 내립니다.
예를 들어, 기술자들이 태양열 에너지 테스트의 일부로 단열재에 대한 모형을 추정합니다.
항 | 계수 | SE 계수 | T-값 | P-값 | VIF |
---|---|---|---|---|---|
상수 | 809 | 377 | 2.14 | 0.042 | |
남쪽 | 20.81 | 8.65 | 2.41 | 0.024 | 2.24 |
북쪽 | -23.7 | 17.4 | -1.36 | 0.186 | 2.17 |
하루 중 시간 | -30.2 | 10.8 | -2.79 | 0.010 | 3.86 |
이 모형에서 북쪽과 남쪽은 초점 위치를 인치 단위로 측정합니다. 북쪽과 남쪽에 대한 계수는 크기가 비슷합니다. 남쪽에 대한 계수의 표준 오차는 북쪽에 대한 계수의 표준 오차보다 작습니다. 따라서 모형이 남쪽에 대한 계수를 더 정밀하게 측정할 수 있습니다.
북쪽 계수의 표준 오차는 거의 계수 자체의 값만큼 큽니다. 결과의 p-값이 유의 수준의 공통 수준보다 크므로 북쪽에 대한 계수가 0과 다르다는 결론을 내릴 수 없습니다.
남쪽에 대한 계수가 북쪽에 대한 계수보다 0에 더 가까우며, 또한 남쪽에 대한 계수의 표준 오차가 더 작습니다. 결과의 p-값이 공통 유의 수준보다 작습니다. 남쪽에 대한 계수의 추정치가 더 정확하기 때문에 남쪽에 대한 계수가 0이 아니라는 결론을 내릴 수 있습니다.
통계적 유의성은 다중 회귀 분석의 모형을 축소하기 위해 사용할 수 있는 한 가지 기준입니다. 자세한 내용은 모형 축소에서 확인하십시오.
신뢰 구간(CI)은 모형의 각 항에 대한 계수의 실제 값이 포함될 가능성이 높은 값의 범위입니다.
표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 여러 개의 랜덤 표본을 추출하면 일정한 백분율의 신뢰 구간에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간의 백분율이 해당 구간의 신뢰 수준입니다.
모형의 각 항에 대한 모집단 계수의 추정치를 평가하려면 신뢰 구간을 사용합니다.
예를 들어, 95% 신뢰 수준에서 신뢰 구간에 모집단에 대한 계수의 값이 포함된다고 95% 확신할 수 있습니다. 신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오.
t-값은 계수와 계수의 표준 오차 간의 비율을 측정합니다.
Minitab에서는 t-값을 사용하여 계수가 0과 유의하게 다른지 여부를 검정하기 위해 사용하는 p-값을 계산합니다.
t-값을 사용하여 귀무 가설의 기각 여부를 확인할 수 있습니다. 그러나 귀무 가설의 기각에 대한 분계점이 자유도에 종속되지 않기 때문에 p-값이 더 자주 사용됩니다. t-값 사용에 대한 자세한 내용은 t-값을 사용하여 귀무 가설의 기각 여부 확인에서 확인하십시오.
p-값은 귀무 가설에 반하는 증거를 측정하는 확률입니다. p-값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 됩니다.
분산 팽창 인수(VIF)는 계수의 분산이 모형 내 예측 변수 간의 상관 관계로 인해 얼마나 팽창되는지 나타냅니다.
회귀 분석에 존재하는 다중 공선성(예측 변수 사이의 상관)의 정도를 설명하려면 VIF를 사용합니다. 다중 공선성은 회귀 계수의 분산을 증가시켜 상관 관계가 있는 각 예측 변수가 반응에 미치는 개별적인 영향을 평가하기 어렵게 만들기 때문에 문제가 됩니다.
VIF | 예측 변수의 상태 |
---|---|
VIF = 1 | 상관되지 않음 |
1 < VIF < 5 | 적당히 상관됨 |
VIF > 5 | 많이 상관됨 |
다중 공선성 및 다중 공선성의 영향을 완화하는 방법에 대한 자세한 내용은 회귀 분석의 다중 공선성을 참조하십시오.