적합 회귀 모형및 선형 회귀에 대한 계수 표

계수 표의 모든 통계량에 대한 정의 및 해석을 확인해 보십시오.

이 항목의 내용

계수
코드화된 계수
SE 계수
계수에 대한 신뢰 구간(95% CI)
t-값
p-값 – 계수
VIF

계수

회귀 계수는 예측 변수와 반응 변수 간의 관계 크기와 방향을 설명합니다. 계수는 회귀 방정식에서 항의 값에 곱하는 숫자입니다.

해석

항의 계수는 모형의 다른 항이 상수로 고정된 상태에서 해당 항의 변화와 연관된 평균 반응의 변화를 나타냅니다. 계수의 부호는 항과 반응 간 관계의 방향을 나타냅니다. 계수 크기는 일반적으로 하나의 항이 반응 변수에 미치는 영향의 실제적 유의성을 평가하는 좋은 방법입니다. 그러나 유의성에 대한 계산에서는 반응 데이터의 변동도 고려하기 때문에 계수 크기는 항이 통계적으로 유의한지 여부를 나타냅니다. 통계적 유의성을 확인하려면 항에 대한 p-값을 조사하십시오.

각 계수는 다음에 설명된 대로 계량형 변수에 대한 계수인지 범주형 변수에 대한 계수인지 여부에 따라 다르게 해석됩니다.

계량형 변수

항의 계수는 해당 항의 한 단위 변화에 대한 평균 반응의 변화를 나타냅니다. 계수가 음수이면 항이 증가함에 따라 반응의 평균 값이 감소합니다. 계수가 양수이면 항이 증가함에 따라 반응의 평균 값이 증가합니다.

범주형 변수

계수는 (결과 하위 대화 상자에서 모든 수준에 대해 계수를 표시하도록 선택하지 않은 경우) 하나의 수준을 제외한 범주형 변수의 각 수준에 대해 나열됩니다. 범주형 변수의 한 수준에 대한 계수는 모형이 적합될 수 있도록 0으로 설정되어야 합니다. 범주형 변수에 대한 계수는 범주형 변수에 대해 선택한 코드화 방법에 따라 다르게 해석됩니다. 코드화 방법은 코드화 하위 대화 상자에서 변경할 수 있습니다.

(0, 1) 코드화 방법의 경우, 각 계수는 각 수준 평균과 기준 수준 평균 간의 차이를 나타냅니다. 기준 수준에 대한 계수는 계수 표에 표시되지 않습니다.
(−1, 0,+1) 코드화 방법의 경우, 각 계수는 각 수준 평균과 전체 평균 간의 차이를 나타냅니다.

예를 들어, 한 관리자가 회귀 모형 y = 130 + 4.3x₁ + 10.1x₂를 사용하여 직원의 작업 기술 검정 점수를 예측할 수 있는지 확인합니다. 방정식에서 x₁은 사내 교육 시간(0-20)입니다. 변수 x₂는 직원에게 멘토가 있는 경우 1, 직원에게 멘토가 없는 경우 0인 범주형 변수입니다. 반응은 y이고 검정 점수입니다. 계량형 변수 교육 시간에 대한 계수는 4.3으로, 이는 1시간 교육에 대해 평균 검정 점수가 4.3점 높아진다는 것을 나타냅니다. (0, 1) 코드화 방법을 사용하는 경우, 범주형 변수 멘토링에 대한 계수는 멘토가 있는 직원의 점수가 멘토가 없는 직원의 점수보다 평균 10.1점 높다는 것을 나타냅니다.

코드화된 계수

Minitab에서는 모형의 계량형 변수에 대해 다양한 방법을 사용하여 선형 모형을 적합할 수 있습니다. 이러한 코드화 방법은 추정 과정 및 결과의 해석을 개선할 수 있습니다. 또한 코드화된 단위에 따라 각 항이 반응의 유의한 예측 변수인지 여부를 확인하는 데 사용되는 통계 검정의 결과가 변경될 수 있습니다. 모형에서 코드화된 단위를 사용하면 분석에서 코드화된 계수를 생성합니다.

해석

Minitab에서 사용하는 코드화 방법은 코드화된 계수의 추정과 해석에 다음과 같이 영향을 미칩니다.

코드화할 낮은 수준과 높은 수준을 -1과 +1로 지정: 이 방법은 변수를 중심화하는 동시에 변수의 척도를 지정합니다. Minitab은 실험 설계(DOE)에 이 방법을 사용합니다. 계수는 사용자가 지정한 높은 값 및 낮은 값과 연관된 반응의 평균 변화를 나타냅니다.
평균값을 뺀 후 표준 편차로 나누기: 이 방법은 변수를 중심화하는 동시에 변수의 척도를 지정합니다. 각 계수는 변수의 1 표준 편차 변화에 대한 반응의 예상되는 변화를 나타냅니다.
평균값 빼기: 이 방법은 변수를 중심화합니다. 각 계수는 원래 측정 척도를 사용하여 변수의 한 단위 변화에 대한 반응의 예상되는 변화를 나타냅니다. 평균을 빼면 상수 계수가 모든 예측 변수가 평균 값일 때 평균 반응을 추정합니다.
표준 편차로 나누기: 이 방법은 변수 척도를 지정합니다. 각 계수는 변수의 1 표준 편차 변화에 대한 반응의 예상되는 변화를 나타냅니다.
지정된 값을 뺀 후 다른 값으로 나누기: 이 방법의 효과 및 해석은 입력하는 값에 따라 달라집니다.

SE 계수

계수의 표준 오차는 동일한 모집단에서 반복해서 표본을 추출하는 경우 얻을 수 있는 계수 추정치 간의 변동성을 추정합니다. 이 계산에서는 반복해서 표본을 추출해도 추정할 표본 크기와 계수가 변경되지 않는다고 가정합니다.

해석

계수 표준 오차를 사용하여 계수 추정치의 정확도를 측정할 수 있습니다. 표준 오차가 작을수록 추정값의 정확도가 높아집니다. 계수를 표준 오차로 나누면 t-값이 계산됩니다. 이 t-통계량과 관련된 p-값이 유의 수준보다 작은 경우 계수가 통계적으로 유의하다는 결론을 내립니다.

예를 들어, 기술자들이 태양열 에너지 테스트의 일부로 단열재에 대한 모형을 추정합니다.

회귀 분석: 일사량 대 남쪽, 북쪽, 하루 중 시간

계수

항	계수	SE 계수	T-값	P-값	VIF
상수	809	377	2.14	0.042
남쪽	20.81	8.65	2.41	0.024	2.24
북쪽	-23.7	17.4	-1.36	0.186	2.17
하루 중 시간	-30.2	10.8	-2.79	0.010	3.86

이 모형에서 북쪽과 남쪽은 초점 위치를 인치 단위로 측정합니다. 북쪽과 남쪽에 대한 계수는 크기가 비슷합니다. 남쪽에 대한 계수의 표준 오차는 북쪽에 대한 계수의 표준 오차보다 작습니다. 따라서 모형이 남쪽에 대한 계수를 더 정밀하게 측정할 수 있습니다.

북쪽 계수의 표준 오차는 거의 계수 자체의 값만큼 큽니다. 결과의 p-값이 유의 수준의 공통 수준보다 크므로 북쪽에 대한 계수가 0과 다르다는 결론을 내릴 수 없습니다.

남쪽에 대한 계수가 북쪽에 대한 계수보다 0에 더 가까우며, 또한 남쪽에 대한 계수의 표준 오차가 더 작습니다. 결과의 p-값이 공통 유의 수준보다 작습니다. 남쪽에 대한 계수의 추정치가 더 정확하기 때문에 남쪽에 대한 계수가 0이 아니라는 결론을 내릴 수 있습니다.

통계적 유의성은 다중 회귀 분석의 모형을 축소하기 위해 사용할 수 있는 한 가지 기준입니다. 자세한 내용은 모형 축소에서 확인하십시오.

계수에 대한 신뢰 구간(95% CI)

신뢰 구간(CI)은 모형의 각 항에 대한 계수의 실제 값이 포함될 가능성이 높은 값의 범위입니다.

표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 여러 개의 랜덤 표본을 추출하면 일정한 백분율의 신뢰 구간에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간의 백분율이 해당 구간의 신뢰 수준입니다.

신뢰 구간은 다음 두 부분으로 구성됩니다.

점 추정치: 이 단일 값은 표본 데이터를 사용하여 모집단 모수를 추정합니다. 신뢰 구간은 점 추정치를 중심으로 합니다.
오차 한계: 오차 한계는 신뢰 구간의 너비를 정의하며 표본에서 관측된 변동성, 표본 크기 및 신뢰 수준에 의해 결정됩니다. 신뢰 구간의 상한을 계산하기 위해 오차 한계를 점 추정치에 더합니다. 신뢰 구간의 하한을 계산하기 위해 오차 한계를 점 추정치에서 뺍니다.

해석

모형의 각 항에 대한 모집단 계수의 추정치를 평가하려면 신뢰 구간을 사용합니다.

예를 들어, 95% 신뢰 수준에서 신뢰 구간에 모집단에 대한 계수의 값이 포함된다고 95% 확신할 수 있습니다. 신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오.

t-값

t-값은 계수와 계수의 표준 오차 간의 비율을 측정합니다.

해석

Minitab에서는 t-값을 사용하여 계수가 0과 유의하게 다른지 여부를 검정하기 위해 사용하는 p-값을 계산합니다.

t-값을 사용하여 귀무 가설의 기각 여부를 확인할 수 있습니다. 그러나 귀무 가설의 기각에 대한 분계점이 자유도에 종속되지 않기 때문에 p-값이 더 자주 사용됩니다. t-값 사용에 대한 자세한 내용은 t-값을 사용하여 귀무 가설의 기각 여부 확인에서 확인하십시오.

p-값 – 계수

p-값은 귀무 가설에 반하는 증거를 측정하는 확률입니다. p-값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 됩니다.

해석

반응과 모형의 각 항 간의 연관성이 통계적으로 유의한지 여부를 확인하려면 항에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 항의 계수가 0으로, 항과 반응 간에 연관성이 없다는 것을 나타냅니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시됨)이 적절합니다. 0.05의 유의 수준은 실제로 연관성이 없는데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다.

p-값 ≤ α: 연관성이 통계적으로 유의함: p-값이 유의 수준보다 작거나 같으면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않음: p-값이 유의 수준보다 크면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다. 항 없이 모형을 다시 적합시킬 수도 있습니다.; 반응과 통계적으로 유의한 연관성이 없는 예측 변수가 여러 개 있는 경우 한 번에 하나씩 항을 줄여 모형을 축소할 수 있습니다. 모형에서 항을 제거하는 방법은 모형 축소에서 확인하십시오.

모형 항이 통계적으로 유의하면 해석은 항의 유형에 따라 다릅니다. 해석은 다음과 같습니다.

계량형 변수에 대한 계수가 유의하면 변수 값의 변화가 평균 반응 값의 변화와 연관성이 있습니다.
범주형 수준에 대한 계수가 유의하면 해당 수준에 대한 평균이 전체 평균(-1, 0, +1 코드화) 또는 기준 수준에 대한 평균(0, 1 코드화)와 다릅니다.
교호작용 항에 대한 계수가 유의하면 요인과 반응의 관계가 항의 요인에 따라 다릅니다. 이 경우에는 교호작용 효과를 고려하지 않고 주효과를 해석해서는 안 됩니다.
다항식 항에 대한 계수가 유의하면 데이터에 곡면성이 포함되어 있다는 결론을 내릴 수 있습니다.

VIF

분산 팽창 인수(VIF)는 계수의 분산이 모형 내 예측 변수 간의 상관 관계로 인해 얼마나 팽창되는지 나타냅니다.

해석

회귀 분석에 존재하는 다중 공선성(예측 변수 사이의 상관)의 정도를 설명하려면 VIF를 사용합니다. 다중 공선성은 회귀 계수의 분산을 증가시켜 상관 관계가 있는 각 예측 변수가 반응에 미치는 개별적인 영향을 평가하기 어렵게 만들기 때문에 문제가 됩니다.

VIF를 해석하려면 다음 지침을 사용하십시오.

VIF	예측 변수의 상태
VIF = 1	상관되지 않음
1 < VIF < 5	적당히 상관됨
VIF > 5	많이 상관됨

5보다 큰 VIF 값은 심각한 다중 공선성으로 인해 회귀 계수가 제대로 추정되지 않음을 의미합니다.

다중 공선성 및 다중 공선성의 영향을 완화하는 방법에 대한 자세한 내용은 회귀 분석의 다중 공선성을 참조하십시오.