이항 로지스틱 모형 적합에 대한 계수 및 회귀 방정식

계수 표와 회귀 방정식의 모든 통계량에 대한 정의 및 해석 방법을 확인해 보십시오.

계수

회귀 계수는 예측 변수와 반응 변수 간의 관계 크기와 방향을 설명합니다. 계수는 회귀 방정식에서 항의 값에 곱하는 숫자입니다.

해석

예측 변수가 변화함에 따라 사건이 발생할 확률이 증가하는지 또는 감소하는지 여부를 확인하려면 계수를 사용합니다. 예측 변수에 대해 추정된 계수는 모형의 다른 예측 변수가 상수로 고정된 상태에서 예측 변수의 각 단위가 바뀔 때의 연결 함수의 변화를 나타냅니다. 계수와 확률 간의 관계는 연결 함수, 반응에 대한 기준 사건, 모형에 있는 범주형 예측 변수에 대한 기준 수준과 같은 분석의 여러 측면에 종속됩니다. 일반적으로 계수가 양이면 사건이 발생할 가능성이 더 높고 계수가 음이면 사건이 발생할 가능성이 낮습니다. 추정된 계수가 0에 가까우면 예측 변수의 효과가 작다는 것을 나타냅니다.

범주형 예측 변수에 대해 추정된 계수는 예측 변수의 기준 수준에 따라 다르게 해석됩니다. 계수가 양수이면 요인의 기준 수준보다 예측 변수의 해당 수준에서 사건이 발생할 가능성이 높다는 것을 나타냅니다. 계수가 음수이면 기준 수준보다 예측 변수의 해당 수준에서 사건이 발생할 가능성이 낮다는 것을 나타냅니다.

로짓 연결 함수의 해석

로짓 연결 함수는 추정된 계수에 대해 가장 자연스러운 해석을 제공하므로 Minitab의 기본 연결 함수입니다. 해석에서는 기준 사건의 승산이 P(사건)/P(비사건)이라는 사실을 이용하며 기타 예측 변수가 일정하다고 가정합니다. 로그 승산이 클수록 기준 사건의 가능성이 더 높습니다. 따라서 계수가 양이면 사건이 발생할 가능성이 더 높고 계수가 음이면 사건이 발생할 가능성이 낮습니다. 예측 변수의 여러 유형은 다음과 같이 해석됩니다.

계량형 예측 변수
계량형 예측 변수의 계수는 예측 변수가 한 단위 증가할 때마다 기준 사건에 대한 승산의 자연 로그에 있어 추정되는 변화입니다. 예를 들어, 시간(초)에 대한 계수가 1.4이면 시간이 1초 증가할 때마다 승산의 자연 로그가 1.4배 증가합니다.
추정된 계수는 승산비 또는 두 승산 간의 비율을 계산하는 데도 사용될 수 있습니다. 승산비를 계산하려면 예측 변수에 대한 계수를 거듭제곱합니다. 그 결과는 예측 변수가 x+1인 경우를 예측 변수가 x인 경우와 비교한 승산비입니다. 예를 들어, 질량(킬로그램)에 대한 승산비가 0.95이면 1킬로그램이 증가할 때마다 사건 확률이 약 5% 감소합니다
계량형 예측 변수의 경우 승산 해석이 승산비 해석보다 더 유의합니다.
1, 0 코드화를 사용한 범주형 예측 변수
계수는 기준 수준에서 계수 수준으로 변경하는 경우 승산의 자연 로그에 있어 추정되는 변화입니다. 예를 들어, 범주형 변수에 빠름과 느림 수준이 있으며 기준 수준은 느림입니다. 빠름에 대한 계수가 1.3이면 변수가 느림에서 빠름으로 변경되는 경우 사건의 승산의 자연 로그가 1.3배 증가합니다.
추정된 계수는 승산비 또는 두 승산 간의 비율을 계산하는 데도 사용될 수 있습니다. 승산비를 계산하려면 수준에 대한 계수를 거듭제곱합니다. 그 결과는 해당 수준을 기준 수준과 비교한 승산비입니다. 예를 들어, 범주형 변수에 딱딱함과 부드러움 수준이 있으며 기준 수준은 부드러움입니다. 딱딱함에 대한 승산비가 0.5이면 부드러움에서 딱딱함으로 변경되는 경우 사건의 승산이 50% 감소합니다.
1, 0, −1 코드화를 사용한 범주형 예측 변수
계수는 승산 자연 로그의 평균에서 계수 수준으로 변경하는 경우 승산의 자연 로그에 있어 추정되는 변화입니다. 예를 들어, 범주형 변수에 변경 전과 변경 후 수준이 있습니다. 변경 후에 대한 계수가 −2.1이면 변수가 변경 후일 때 사건 승산의 자연 로그가 2.1배 감소합니다.
추정된 계수는 승산비를 계산하는 데도 사용될 수 있습니다. 거듭제곱할 값을 찾으려면 비교하려는 계수를 뺍니다. 예를 들어, 범주형 변수에 빨간색, 노란색, 녹색 수준이 있습니다. 빨간색 및 노란색에 대한 승산비를 계산하려면 노란색에 대한 계수에서 빨간색에 대한 계수를 뺀 다음 결과를 거듭제곱합니다. 승산비가 1.02이면 빨간색에서 노란색으로 변경되는 경우 사건 승산이 2% 증가합니다.

SE 계수

계수의 표준 오차는 동일한 모집단에서 반복해서 표본을 추출하는 경우 얻을 수 있는 계수 추정치 간의 변동성을 추정합니다. 이 계산에서는 반복해서 표본을 추출해도 추정할 표본 크기와 계수가 변경되지 않는다고 가정합니다.

해석

계수 표준 오차를 사용하여 계수 추정치의 정확도를 측정할 수 있습니다. 표준 오차가 작을수록 추정치가 더 정확합니다.

계수에 대한 신뢰 구간(95% CI)

이러한 신뢰 구간(CI)은 모형의 각 항에 대한 계수의 실제 값이 포함될 가능성이 높은 값의 범위입니다. 신뢰 구간의 계산에는 정규 분포가 사용됩니다. 신뢰 구간은 표본 계수의 분포가 정규 분포를 따를 정도로 표본 크기가 충분히 큰 경우에 정확합니다.

표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 여러 개의 랜덤 표본을 추출하면 일정한 백분율의 신뢰 구간에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간의 백분율이 해당 구간의 신뢰 수준입니다.

신뢰 구간은 다음 두 부분으로 구성됩니다.
점 추정치
이 단일 값은 표본 데이터를 사용하여 모집단 모수를 추정합니다. 신뢰 구간은 점 추정치를 중심으로 합니다.
오차 한계
오차 한계는 신뢰 구간의 너비를 정의하며 표본에서 관측된 변동성, 표본 크기 및 신뢰 수준에 의해 결정됩니다. 신뢰 구간의 상한을 계산하기 위해 오차 한계를 점 추정치에 더합니다. 신뢰 구간의 하한을 계산하기 위해 오차 한계를 점 추정치에서 뺍니다.

해석

모형의 각 항에 대한 모집단 계수의 추정치를 평가하려면 신뢰 구간을 사용합니다.

예를 들어, 95% 신뢰 수준에서 신뢰 구간에 모집단에 대한 계수의 값이 포함된다고 95% 확신할 수 있습니다. 신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오.

Z-값

Z-값은 계수와 계수의 표준 오차 간의 비율을 측정하는 Wald 검정에 대한 검정 통계량입니다.

해석

Minitab에서는 Z-값을 사용하여 항과 모형의 통계적 유의성에 대한 결정을 내릴 때 사용하는 p-값을 계산합니다. Wald 검정은 표본 계수의 분포가 정규 분포를 따를 정도로 표본 크기가 충분히 클 때 정확합니다.

0에서 충분히 떨어져 있는 Z-값은 계수 추정치가 0과 통계적으로 다를만큼 충분히 크고 정확함을 나타냅니다. 반대로, 0과 가까운 Z-값은 항이 반응에 영향을 미친다고 확신하기에는 계수가 너무 작거나 너무 부정확함을 나타냅니다. .

이탈도 표의 검정은 우도비 검정입니다. 계수 표가 확장된 검정은 Wald 근사 검정입니다. 표본이 작은 경우 우도비 검정이 Wald 근사 검정보다 더 정확합니다.

p-값

p-값은 귀무 가설에 반하는 증거를 측정하는 확률입니다. p-값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 됩니다.

해석

반응과 모형의 각 항 간의 연관성이 통계적으로 유의한지 여부를 확인하려면 항에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 항의 계수가 0으로, 항과 반응 간에 연관성이 없다는 것을 나타냅니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시됨)이 적절합니다. 0.05의 유의 수준은 실제로 연관성이 없는데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다.
p-값 ≤ α: 연관성이 통계적으로 유의함
p-값이 유의 수준보다 작거나 같으면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않음
p-값이 유의 수준보다 크면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다. 항 없이 모형을 다시 적합시킬 수도 있습니다.
반응과 통계적으로 유의한 연관성이 없는 예측 변수가 여러 개 있는 경우 한 번에 하나씩 항을 줄여 모형을 축소할 수 있습니다. 모형에서 항을 제거하는 방법은 모형 축소에서 확인하십시오.
모형 항이 통계적으로 유의하면 해석은 항의 유형에 따라 다릅니다. 해석은 다음과 같습니다.
  • 계량형 예측 변수가 유의하면 예측 변수에 대한 계수가 0이 아니라는 결론을 내릴 수 있습니다.
  • 범주형 예측 변수가 유의하면 범주형 변수의 코드화에 따라 결론이 달라집니다. (0, 1) 코드화를 사용하면 해당 수준에 대한 확률이 기준 수준에 대한 확률과 다르다는 결론을 내릴 수 있습니다. (-1, 0, +1) 코드화를 사용하면 해당 수준에 대한 확률이 기준 확률과 다르다는 결론을 내릴 수 있습니다.
  • 교호작용 항이 유의하면 예측 변수와 사건 확률 간의 관계가 항의 다른 예측 변수에 따라 다르다는 결론을 내릴 수 있습니다.
  • 다항식 항이 유의하면 예측 변수와 사건 확률 간의 관계가 예측 변수 크기에 따라 다르다는 결론을 내릴 수 있습니다.

VIF

분산 팽창 인수(VIF)는 다중 공선성으로 인해 계수가 팽창된 양을 나타냅니다.

해석

회귀 분석에 존재하는 다중 공선성의 정도를 설명하려면 VIF를 사용하십시오. 다중 공선성은 회귀 계수의 분산을 증가시켜 각 예측 변수가 반응에 미치는 개별적인 영향을 평가하기 어렵게 만들기 때문에 문제가 됩니다.

VIF를 해석하려면 다음 지침을 사용하십시오.
VIF 다중 공선성
VIF = 1 없음
1 < VIF < 5 중간
VIF > 5 높음
VIF 값이 5보다 크면 중대한 다중 공선성으로 인해 회귀 계수가 제대로 추정되지 않는다는 것을 의미합니다.

다중 공선성 및 다중 공선성의 영향을 완화시키는 방법에 대한 자세한 내용은 회귀 분석의 다중 공선성을 참조하십시오.

코드화된 계수

계량형 변수를 표준화하면 계수가 표준화된 변수의 1단위 변동을 나타냅니다. 일반적인 경우 계량형 예측 변수를 표준화하여 다중 공선성을 줄이거나 변수를 공통 척도에 표시합니다.

해석

코드화된 계수를 사용하는 방법은 표준화 방법에 따라 다릅니다. 계수의 정확한 해석은 분석의 측면(연결 함수 등)에 따라서도 달라집니다. 계수가 양이면 사건 발생 확률이 더 높습니다. 계수가 음이면 사건 발생 확률이 더 낮습니다. 추정 계수가 0에 가까우면 예측 변수의 영향이 작음을 의미합니다.

코드화할 하한 및 상한 수준을 -1과 +1로 지정

각 계수는 예측 변수가 코드화된 척도에서 1단위 변할 때 예상되는 변환 반응 평균의 변동을 나타냅니다.

예를 들어 섭씨 단위의 온도와 초 단위의 시간을 사용하는 모형이 있습니다. 0이 섭씨 50도에 해당하고 1이 섭씨 100도에 해당하도록 온도를 코드화합니다. 0이 30초에 해당하고 1이 60초에 해당하도록 시간을 코드화합니다. 온도 계수는 섭씨 50도 상승을 나타냅니다. 시간 계수는 30초 증가를 나타냅니다.

평균을 뺀 후 표준 편차로 나누기

각 계수는 예측 변수가 1 표준 편차만큼 변할 때 예상되는 변환된 응답 평균의 변동을 나타냅니다.

예를 들어 섭씨 단위의 온도와 초 단위의 시간을 사용하는 모형이 있습니다. 온도의 표준 편차는 섭씨 3.7도입니다. 시간의 표준 편차는 18.3초입니다. 온도 계수는 섭씨 3.7도 상승을 나타냅니다. 시간 계수는 18.3초 증가를 나타냅니다.

평균값 빼기

각 계수는 예측 변수가 1만큼 변할 때 예상되는 변환된 반응 평균의 변동을 나타냅니다.

예를 들어 섭씨 단위의 온도와 초 단위의 시간을 사용하는 모형이 있습니다. 온도 계수는 섭씨 1도 상승을 나타냅니다. 시간 계수는 1초 증가를 나타냅니다.

표준 편차로 나누기

각 계수는 예측 변수가 1 표준 편차만큼 변할 때 예상되는 변환된 응답 평균의 변동을 나타냅니다.

예를 들어 섭씨 단위의 온도와 초 단위의 시간을 사용하는 모형이 있습니다. 온도의 표준 편차는 섭씨 3.7도입니다. 시간의 표준 편차는 18.3초입니다. 온도 계수는 섭씨 3.7도 상승을 나타냅니다. 시간 계수는 18.3초 증가를 나타냅니다.

지정된 값을 뺀 후 다른 값으로 나누기

각 계수는 예측 변수가 제수만큼 변할 때 예상되는 변환된 응답 평균의 변동을 나타냅니다.

예를 들어 미터를 길이로 사용하고 암페어를 전류로 사용하는 모형이 있습니다. 제수는 1,000입니다. 길이 계수는 1밀리미터 증가를 나타냅니다. 전류 계수는 1밀리암페어 증가를 나타냅니다.

로짓 연결 함수의 해석

로짓 연결 함수는 추정 계수에 대한 가장 자연스러운 해석을 제공하므로 Minitab의 기본 연결 함수입니다. 로짓 연결 함수의 경우, 변환된 반응 변수는 사건 확률의 자연 로그입니다. 다양한 표준화 방법에 대한 해석은 다음과 같이 요약됩니다.
코드화할 하한 및 상한 수준을 -1과 +1로 지정

각 계수는 예측 변수가 코드화된 척도에서 1단위 변할 때 예상되는 변환 반응 평균의 변동을 나타냅니다.

예를 들어 섭씨 단위의 온도를 사용하는 모형이 있습니다. 0이 섭씨 50도에 해당하고 1이 섭씨 100도에 해당하도록 온도를 코드화합니다. 온도 계수는 섭씨 50도 상승을 나타냅니다. 온도 계수는 1.8입니다. 온도가 1 코드화된 단위 상승하면 온도는 50도 상승하고 확률의 자연 로그가 1.8만큼 증가합니다.

평균을 뺀 후 표준 편차로 나누기

각 계수는 예측 변수가 1 표준 편차만큼 변할 때 예상되는 사건 확률에 대한 자연 로그의 변동을 나타냅니다.

예를 들어 섭씨 단위의 온도를 사용하는 모형이 있습니다. 온도의 표준 편차는 섭씨 3.7도입니다. 온도의 코드화된 계수는 1.4입니다. 온도가 1 코드화된 단위만큼 상승하면 온도가 섭씨 3.7도 상승하고 확률의 자연 로그가 1.4만큼 증가합니다.

평균값 빼기

각 계수는 예측 변수가 1만큼 변할 때 예상되는 사건 확률에 대한 자연 로그의 변동을 나타냅니다.

예를 들어 섭씨 단위의 온도를 사용하는 모형이 있습니다. 온도 계수는 섭씨 1도 상승을 나타냅니다. 온도 계수는 2.3입니다. 온도가 1 코드화된 단위만큼 상승하면 온도가 섭씨 1도 상승하고 확률의 자연 로그가 2.3만큼 증가합니다.

표준 편차로 나누기

각 계수는 예측 변수가 1 표준 편차만큼 변할 때 예상되는 사건 확률에 대한 자연 로그의 변동을 나타냅니다.

예를 들어 섭씨 단위의 온도를 사용하는 모형이 있습니다. 온도의 표준 편차는 섭씨 3.7도입니다. 온도 계수는 1.4입니다. 온도가 1 코드화된 단위만큼 상승하면 온도가 섭씨 3.7도 상승하고 확률의 자연 로그가 1.4만큼 증가합니다.

지정된 값을 뺀 후 다른 값으로 나누기

각 계수는 예측 변수가 제수만큼 변할 때 예상되는 사건 확률에 대한 자연 로그의 변동을 나타냅니다.

예를 들어 길이 단위로 미터를 사용하고 전류 단위로 암페어를 사용하는 모형이 있습니다. 제수는 1,000입니다. 길이 계수는 1밀리미터 증가를 나타냅니다. 길이 계수는 5.6입니다. 길이가 1 코드화된 단위만큼 증가하면 길이가 1밀리미터 증가하고 확률의 자연 로그가 5.6만큼 증가합니다. 전류 계수는 1밀리암페어 증가를 나타냅니다.

회귀 방정식

이항 로지스틱 회귀 분석의 경우 Minitab에서는 두 가지 유형의 회귀 방정식을 표시합니다. 첫 번째 방정식은 사건의 확률을 변환된 반응과 관련시킵니다. 첫 번째 방정식의 형식은 연결 함수에 따라 다릅니다.

두 번째 방정식은 예측 변수를 변환된 반응과 관련시킵니다. 모형에 계량형 예측 변수와 범주형 예측 변수가 모두 포함되어 있는 경우 두 번째 방정식이 각 범주 조합별로 분리될 수 있습니다. 표시할 방정식의 수를 선택하는 방법에 대한 자세한 내용은 이항 로지스틱 모형 적합에 대해 표시할 결과 선택에서 확인하십시오.

해석

반응과 예측 변수 간의 관계를 조사하려면 방정식을 사용하십시오.

예를 들어, 고객이 제품을 구입할지 여부를 예측하는 모형에는 다음 항이 포함됩니다.
  • 고객의 수입
  • 고객에게 자녀가 있는지 여부
  • 두 예측 변수 간의 교호작용

첫 번째 방정식은 로짓 연결 함수로 인한 확률과 변환된 반응 간의 관계를 보여줍니다.

두 번째 방정식은 수입과 고객에게 자녀가 있는지 여부가 변환된 반응과 어떤 관계가 있는지 보여줍니다. 고객에게 자녀가 없는 경우 수입에 대한 계수는 약 0.04입니다. 고객에게 자녀가 있는 경우 계수는 약 0.02입니다. 이러한 방정식의 경우, 고객의 수입이 많을수록 제품을 구입할 가능성이 높습니다. 그러나 고객에게 자녀가 없을 경우 수입이 고객의 제품 구매 여부에 더 강력한 영향을 미칩니다.

코드화되지 않은 단위의 회귀 방정식

P(1)=exp(Y')/(1 + exp(Y'))
자녀
아니요Y'=-3.549 + 0.04296 수입
       
Y'=-1.076 + 0.01565 수입

모형이 비계층적이고 계량형 예측 변수를 표준화한 경우 회귀 방정식이 코드화된 단위로 표시됩니다. 자세한 내용은 코드화된 계수 항목을 참조하십시오. 계층 구조에 대한 자세한 내용은 계층적 모형의 정의에서 확인하십시오.