회귀 계수는 예측 변수와 반응 변수 간의 관계 크기와 방향을 설명합니다. 계수는 회귀 방정식에서 항의 값에 곱하는 숫자입니다.
예측 변수가 변화함에 따라 사건이 발생할 확률이 증가하는지 또는 감소하는지 여부를 확인하려면 계수를 사용합니다. 예측 변수에 대해 추정된 계수는 모형의 다른 예측 변수가 상수로 고정된 상태에서 예측 변수의 각 단위가 바뀔 때의 연결 함수의 변화를 나타냅니다. 계수와 확률 간의 관계는 연결 함수, 반응에 대한 기준 사건, 모형에 있는 범주형 예측 변수에 대한 기준 수준과 같은 분석의 여러 측면에 종속됩니다. 일반적으로 계수가 양이면 사건이 발생할 가능성이 더 높고 계수가 음이면 사건이 발생할 가능성이 낮습니다. 추정된 계수가 0에 가까우면 예측 변수의 효과가 작다는 것을 나타냅니다.
범주형 예측 변수에 대해 추정된 계수는 예측 변수의 기준 수준에 따라 다르게 해석됩니다. 계수가 양수이면 요인의 기준 수준보다 예측 변수의 해당 수준에서 사건이 발생할 가능성이 높다는 것을 나타냅니다. 계수가 음수이면 기준 수준보다 예측 변수의 해당 수준에서 사건이 발생할 가능성이 낮다는 것을 나타냅니다.
로짓 연결 함수는 추정된 계수에 대해 가장 자연스러운 해석을 제공하므로 Minitab의 기본 연결 함수입니다. 해석에서는 기준 사건의 승산이 P(사건)/P(비사건)이라는 사실을 이용하며 기타 예측 변수가 일정하다고 가정합니다. 로그 승산이 클수록 기준 사건의 가능성이 더 높습니다. 따라서 계수가 양이면 사건이 발생할 가능성이 더 높고 계수가 음이면 사건이 발생할 가능성이 낮습니다. 예측 변수의 여러 유형은 다음과 같이 해석됩니다.
계수의 표준 오차는 동일한 모집단에서 반복해서 표본을 추출하는 경우 얻을 수 있는 계수 추정치 간의 변동성을 추정합니다. 이 계산에서는 반복해서 표본을 추출해도 추정할 표본 크기와 계수가 변경되지 않는다고 가정합니다.
계수 표준 오차를 사용하여 계수 추정치의 정확도를 측정할 수 있습니다. 표준 오차가 작을수록 추정치가 더 정확합니다.
이러한 신뢰 구간(CI)은 모형의 각 항에 대한 계수의 실제 값이 포함될 가능성이 높은 값의 범위입니다. 신뢰 구간의 계산에는 정규 분포가 사용됩니다. 신뢰 구간은 표본 계수의 분포가 정규 분포를 따를 정도로 표본 크기가 충분히 큰 경우에 정확합니다.
표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 여러 개의 랜덤 표본을 추출하면 일정한 백분율의 신뢰 구간에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간의 백분율이 해당 구간의 신뢰 수준입니다.
모형의 각 항에 대한 모집단 계수의 추정치를 평가하려면 신뢰 구간을 사용합니다.
예를 들어, 95% 신뢰 수준에서 신뢰 구간에 모집단에 대한 계수의 값이 포함된다고 95% 확신할 수 있습니다. 신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오.
Z-값은 계수와 계수의 표준 오차 간의 비율을 측정하는 Wald 검정에 대한 검정 통계량입니다.
Minitab에서는 Z-값을 사용하여 항과 모형의 통계적 유의성에 대한 결정을 내릴 때 사용하는 p-값을 계산합니다. Wald 검정은 표본 계수의 분포가 정규 분포를 따를 정도로 표본 크기가 충분히 클 때 정확합니다.
0에서 충분히 떨어져 있는 Z-값은 계수 추정치가 0과 통계적으로 다를만큼 충분히 크고 정확함을 나타냅니다. 반대로, 0과 가까운 Z-값은 항이 반응에 영향을 미친다고 확신하기에는 계수가 너무 작거나 너무 부정확함을 나타냅니다. .
이탈도 표의 검정은 우도비 검정입니다. 계수 표가 확장된 검정은 Wald 근사 검정입니다. 표본이 작은 경우 우도비 검정이 Wald 근사 검정보다 더 정확합니다.
p-값은 귀무 가설에 반하는 증거를 측정하는 확률입니다. p-값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 됩니다.
분산 팽창 인수(VIF)는 다중 공선성으로 인해 계수가 팽창된 양을 나타냅니다.
회귀 분석에 존재하는 다중 공선성의 정도를 설명하려면 VIF를 사용하십시오. 다중 공선성은 회귀 계수의 분산을 증가시켜 각 예측 변수가 반응에 미치는 개별적인 영향을 평가하기 어렵게 만들기 때문에 문제가 됩니다.
VIF | 다중 공선성 |
---|---|
VIF = 1 | 없음 |
1 < VIF < 5 | 중간 |
VIF > 5 | 높음 |
다중 공선성 및 다중 공선성의 영향을 완화시키는 방법에 대한 자세한 내용은 회귀 분석의 다중 공선성을 참조하십시오.
계량형 변수를 표준화하면 계수가 표준화된 변수의 1단위 변동을 나타냅니다. 일반적인 경우 계량형 예측 변수를 표준화하여 다중 공선성을 줄이거나 변수를 공통 척도에 표시합니다.
코드화된 계수를 사용하는 방법은 표준화 방법에 따라 다릅니다. 계수의 정확한 해석은 분석의 측면(연결 함수 등)에 따라서도 달라집니다. 계수가 양이면 사건 발생 확률이 더 높습니다. 계수가 음이면 사건 발생 확률이 더 낮습니다. 추정 계수가 0에 가까우면 예측 변수의 영향이 작음을 의미합니다.
각 계수는 예측 변수가 코드화된 척도에서 1단위 변할 때 예상되는 변환 반응 평균의 변동을 나타냅니다.
예를 들어 섭씨 단위의 온도와 초 단위의 시간을 사용하는 모형이 있습니다. 0이 섭씨 50도에 해당하고 1이 섭씨 100도에 해당하도록 온도를 코드화합니다. 0이 30초에 해당하고 1이 60초에 해당하도록 시간을 코드화합니다. 온도 계수는 섭씨 50도 상승을 나타냅니다. 시간 계수는 30초 증가를 나타냅니다.
각 계수는 예측 변수가 1 표준 편차만큼 변할 때 예상되는 변환된 응답 평균의 변동을 나타냅니다.
예를 들어 섭씨 단위의 온도와 초 단위의 시간을 사용하는 모형이 있습니다. 온도의 표준 편차는 섭씨 3.7도입니다. 시간의 표준 편차는 18.3초입니다. 온도 계수는 섭씨 3.7도 상승을 나타냅니다. 시간 계수는 18.3초 증가를 나타냅니다.
각 계수는 예측 변수가 1만큼 변할 때 예상되는 변환된 반응 평균의 변동을 나타냅니다.
예를 들어 섭씨 단위의 온도와 초 단위의 시간을 사용하는 모형이 있습니다. 온도 계수는 섭씨 1도 상승을 나타냅니다. 시간 계수는 1초 증가를 나타냅니다.
각 계수는 예측 변수가 1 표준 편차만큼 변할 때 예상되는 변환된 응답 평균의 변동을 나타냅니다.
예를 들어 섭씨 단위의 온도와 초 단위의 시간을 사용하는 모형이 있습니다. 온도의 표준 편차는 섭씨 3.7도입니다. 시간의 표준 편차는 18.3초입니다. 온도 계수는 섭씨 3.7도 상승을 나타냅니다. 시간 계수는 18.3초 증가를 나타냅니다.
각 계수는 예측 변수가 제수만큼 변할 때 예상되는 변환된 응답 평균의 변동을 나타냅니다.
예를 들어 미터를 길이로 사용하고 암페어를 전류로 사용하는 모형이 있습니다. 제수는 1,000입니다. 길이 계수는 1밀리미터 증가를 나타냅니다. 전류 계수는 1밀리암페어 증가를 나타냅니다.
각 계수는 예측 변수가 코드화된 척도에서 1단위 변할 때 예상되는 변환 반응 평균의 변동을 나타냅니다.
예를 들어 섭씨 단위의 온도를 사용하는 모형이 있습니다. 0이 섭씨 50도에 해당하고 1이 섭씨 100도에 해당하도록 온도를 코드화합니다. 온도 계수는 섭씨 50도 상승을 나타냅니다. 온도 계수는 1.8입니다. 온도가 1 코드화된 단위 상승하면 온도는 50도 상승하고 확률의 자연 로그가 1.8만큼 증가합니다.
각 계수는 예측 변수가 1 표준 편차만큼 변할 때 예상되는 사건 확률에 대한 자연 로그의 변동을 나타냅니다.
예를 들어 섭씨 단위의 온도를 사용하는 모형이 있습니다. 온도의 표준 편차는 섭씨 3.7도입니다. 온도의 코드화된 계수는 1.4입니다. 온도가 1 코드화된 단위만큼 상승하면 온도가 섭씨 3.7도 상승하고 확률의 자연 로그가 1.4만큼 증가합니다.
각 계수는 예측 변수가 1만큼 변할 때 예상되는 사건 확률에 대한 자연 로그의 변동을 나타냅니다.
예를 들어 섭씨 단위의 온도를 사용하는 모형이 있습니다. 온도 계수는 섭씨 1도 상승을 나타냅니다. 온도 계수는 2.3입니다. 온도가 1 코드화된 단위만큼 상승하면 온도가 섭씨 1도 상승하고 확률의 자연 로그가 2.3만큼 증가합니다.
각 계수는 예측 변수가 1 표준 편차만큼 변할 때 예상되는 사건 확률에 대한 자연 로그의 변동을 나타냅니다.
예를 들어 섭씨 단위의 온도를 사용하는 모형이 있습니다. 온도의 표준 편차는 섭씨 3.7도입니다. 온도 계수는 1.4입니다. 온도가 1 코드화된 단위만큼 상승하면 온도가 섭씨 3.7도 상승하고 확률의 자연 로그가 1.4만큼 증가합니다.
각 계수는 예측 변수가 제수만큼 변할 때 예상되는 사건 확률에 대한 자연 로그의 변동을 나타냅니다.
예를 들어 길이 단위로 미터를 사용하고 전류 단위로 암페어를 사용하는 모형이 있습니다. 제수는 1,000입니다. 길이 계수는 1밀리미터 증가를 나타냅니다. 길이 계수는 5.6입니다. 길이가 1 코드화된 단위만큼 증가하면 길이가 1밀리미터 증가하고 확률의 자연 로그가 5.6만큼 증가합니다. 전류 계수는 1밀리암페어 증가를 나타냅니다.
이항 로지스틱 회귀 분석의 경우 Minitab에서는 두 가지 유형의 회귀 방정식을 표시합니다. 첫 번째 방정식은 사건의 확률을 변환된 반응과 관련시킵니다. 첫 번째 방정식의 형식은 연결 함수에 따라 다릅니다.
두 번째 방정식은 예측 변수를 변환된 반응과 관련시킵니다. 모형에 계량형 예측 변수와 범주형 예측 변수가 모두 포함되어 있는 경우 두 번째 방정식이 각 범주 조합별로 분리될 수 있습니다. 표시할 방정식의 수를 선택하는 방법에 대한 자세한 내용은 이항 로지스틱 모형 적합에 대해 표시할 결과 선택에서 확인하십시오.
반응과 예측 변수 간의 관계를 조사하려면 방정식을 사용하십시오.
첫 번째 방정식은 로짓 연결 함수로 인한 확률과 변환된 반응 간의 관계를 보여줍니다.
두 번째 방정식은 수입과 고객에게 자녀가 있는지 여부가 변환된 반응과 어떤 관계가 있는지 보여줍니다. 고객에게 자녀가 없는 경우 수입에 대한 계수는 약 0.04입니다. 고객에게 자녀가 있는 경우 계수는 약 0.02입니다. 이러한 방정식의 경우, 고객의 수입이 많을수록 제품을 구입할 가능성이 높습니다. 그러나 고객에게 자녀가 없을 경우 수입이 고객의 제품 구매 여부에 더 강력한 영향을 미칩니다.
P(1) | = | exp(Y')/(1 + exp(Y')) |
---|
자녀 | |||
---|---|---|---|
아니요 | Y' | = | -3.549 + 0.04296 수입 |
예 | Y' | = | -1.076 + 0.01565 수입 |
모형이 비계층적이고 계량형 예측 변수를 표준화한 경우 회귀 방정식이 코드화된 단위로 표시됩니다. 자세한 내용은 코드화된 계수 항목을 참조하십시오. 계층 구조에 대한 자세한 내용은 계층적 모형의 정의에서 확인하십시오.