명목형 로지스틱 회귀 분석에 대한 모든 통계량 해석

명목형 로지스틱 회귀 분석과 함께 제공되는 모든 통계량에 대한 정의 및 해석 방법을 확인해 보십시오.

이 항목의 내용

반응 정보
요인 정보
계수
SE 계수
Z-값
p-값
승산비

승산비에 대한 신뢰 구간(95% CI)
자유도가 1보다 큰 항에 대한 검정
로그 우도
모든 기울기가 0인지 검정
Pearson 적합도 검정
이탈도 적합도 검정

반응 정보

Minitab은 반응값에 대해 다음과 같은 정보를 표시합니다.

변수: 반응 변수의 이름
값: 반응 변수의 수준
카운트: 반응 변수의 각 수준에 있는 관측치 수
합계: 비결측 관측치 수

결과에서는 어느 반응 수준이 기준 사건인 지도 식별합니다.

해석

반응 정보는 분석에 데이터가 얼마나 있는지 조사하는 데 사용합니다. 각 수준의 발생 횟수가 많은 상대적으로 큰 랜덤 표본은 일반적으로 모집단에 대한 보다 정확한 추측을 제시합니다.

반응 정보는 어느 사건이 기준 사건인지 결정하는 데도 사용합니다. 계수와 승산비 같은 통계량의 해석은 어느 사건이 기준 사건이냐에 따라 다릅니다.

요인 정보

요인 정보 표는 설계의 요인, 수준의 수, 그리고 수준의 값을 표시합니다. 요인은 요인 수준이라고 하는 제한된 수의 값만 가질 수 있습니다. 요인 수준은 텍스트 또는 숫자일 수 있습니다. 숫자 요인이 많은 값을 사용할 수 있어도 실험에서는 제어된 값 몇 개만 사용합니다.

해석

요인 정보 표는 분석의 수준 수를 확인하는 데 사용합니다. 예를 들어 품질 분석가가 제조 공정 중에 플라스틱 강도에 영향을 미칠 수 있는 요인을 연구할 계획입니다. 분석가는 첨가제를 포함합니다. 첨가제는 유형 A 또는 유형 B일 수 있는 범주형 변수입니다.

요인 정보

요인	수준	값
첨가제	2	A, B

요인은 교차 또는 내포 요인일 수 있습니다. 한 요인의 각 수준이 다른 요인의 각 수준과 함께 발생하는 경우, 두 요인은 교차됩니다. 한 요인의 여러 수준이 두 번째 요인의 한 수준에만 나타나면 두 요인은 내포됩니다. 예를 들어 기계와 조작자가 설계에 포함된 경우, 모든 조작자가 모든 기계를 사용하면 두 요인은 교차됩니다. 그러나 기계마다 조작자 집합이 다르면 조작자가 기계에 내포됩니다.

요인 정보 표에서 괄호는 내포 요인을 나타냅니다. 예를 들어 표준(평가자)은 표준이 평가자 내에 내포됨을 나타냅니다. 이 맥락에서 내포는 각 평가자에게 전용 표준 부품 집합이 있음을 나타냅니다. 내포된 요인의 요인 수준은 각 내포 수준에 대해 반복되므로 내포 요인에 대한 수준 수가 증가합니다. 이 예에서는 각 평가자에게 5개의 표준이 있지만, 표준이 평가자에 내포되어 있으므로 표준의 수준은 20개입니다.

요인 정보

요인	수준	값
표준(평가자)	20	1(은혜), 2(은혜), 3(은혜), 4(은혜), 5(은혜), 1(병규), 2(병규), 3(병규), 4(병규), 5(병규), 1(우진), 2(우 진), 3(우진), 4(우진), 5(우진), 1(민수), 2(민수), 3(민수), 4(민수), 5(민수)
평가자	4	은혜, 병규, 우진, 민수

자세한 내용은 요인 및 요인 수준, 요인, 교차 요인 및 내포 요인의 정의 및 고정 요인과 변량 요인의 차이에서 확인하십시오.

계수

명목형 로지스틱 방정식은 각 명목형 결과를 개별적으로 처리합니다. 로지스틱 회귀 방정식은 한 반응 값을 제외하고 반응 값마다 하나씩 있는 여러 로짓 함수로 구성되어 있습니다. 각 방정식에는 예측 변수에 대한 고유 기울기가 있습니다. 이런 방정식은 예측 변수가 바뀔 때 하나의 명목형 결과의 확률이 다른 명목형 결과와 비교하여 어떻게 변하는지 계산합니다.

해석

계수는 예측 변수가 바뀔 때 결과의 확률이 어떻게 변하는지 조사하기 위해 사용합니다. 예측 변수에 대한 추정 계수는 예측 변수의 각 단위가 바뀔 때의 연결 함수의 변화를 나타냅니다. 결과 확률과 계수 간의 관계는 반응 변수에 대한 기준 결과와 범주형 예측 변수에 대한 기준 수준 등 분석의 다양한 측면에 따라 다릅니다. 일반적으로 계수가 양이면 예측 변수가 증가할수록 기준 결과의 확률이 낮아집니다. 계수가 음이면 예측 변수가 증가할수록 기준 결과의 확률이 더 높아집니다. 추정 계수가 0에 가까우면 예측 변수의 영향이 작음을 의미합니다.

예를 들어 한 학교 관리자가 여러 가지 교수 방법을 평가하려고 합니다. 이 관리자는 나이와 교수 방법을 사용하여 학생들이 선호하는 과목을 예측합니다. 첫 번째 결과 사건은 반응 정보 표의 첫 번째 사건이고 반응 변수에 대한 기준 결과입니다. 이 데이터의 경우 기준 결과는 학생이 과학을 선호한다는 것입니다. 로짓 1에서는 학생이 수학을 선호할 확률을 과학과 비교합니다. 이 방정식에서 나이에 대한 계수의 p-값은 0.7보다 큽니다. 이렇게 높은 p-값은 나이가 학생이 수학을 과학보다 선호하는 지에 거의 영향을 미치지 않음을 시사합니다.

로짓 2에서는 미술을 과학과 비교합니다. 이 방정식에서 나이에 대한 계수는 수학을 과학과 비교하는 계수보다 큽니다. 나이에 대한 계수는 양수입니다. 학생의 나이가 많을수록 학생이 미술을 과학보다 선호할 확률이 높아집니다.

범주형 예측 변수에 대한 계수의 해석은 요인에 대한 기준 수준에 따라 다릅니다. 교수 방법 데이터에서 교수 방법에 대한 2개 수준은 "시연"과 "설명"입니다. "시연"은 계수 표에 없으므로 "시연"이 기준 수준입니다. 수학을 과학과 비교하는 방정식에서 "설명"에 대한 p-값은 0.5보다 큽니다. 이렇게 높은 p-값은 교수 방법이 학생이 수학을 과학보다 선호하는지 여부에 거의 영향을 미치지 않음을 시사합니다.

로짓 2에서 "설명"에 대한 계수는 수학을 과학과 비교하는 계수보다 큽니다. 이 계수에 대한 p-값은 0.05보다 작으므로, 이 계수는 0.05 수준에서 통계적으로 유의합니다. 이 방정식에서 "설명"에 대한 계수는 양수입니다. 교수 방법이 "설명"이면 학생이 미술을 선호할 확률이 더 높습니다.

반응 정보

변수	값	카운트
과목	과학	10	(기준 사건)
	수학	11
	미술	9
	총계	30

요인 정보

요인	수준	값
교수 방법	2	시연, 설명

로지스틱 회귀 분석 표

						95% CI
예측 변수	계수	SE 계수	Z	P	승산비	하한	상한
로짓 1: (수학/과학)
상수	-1.12266	4.56425	-0.25	0.806
교수 방법
설명	-0.563115	0.937591	-0.60	0.548	0.57	0.09	3.58
나이	0.124674	0.401079	0.31	0.756	1.13	0.52	2.49
로짓 2: (미술/과학)
상수	-13.8485	7.24256	-1.91	0.056
교수 방법
설명	2.76992	1.37209	2.02	0.044	15.96	1.08	234.90
나이	1.01354	0.584494	1.73	0.083	2.76	0.88	8.66

로그 우도 = -26.446

모든 기울기가 0인 검정

DF	G	P-값
4	12.825	0.012

적합도 검정

방법	카이-제곱	DF	P
Pearson	6.95295	10	0.730
이탈도	7.88622	10	0.640

SE 계수

계수의 표준 오차는 동일한 모집단에서 반복해서 표본을 추출하는 경우 얻을 수 있는 계수 추정치 간의 변동성을 추정합니다. 이 계산에서는 반복해서 표본을 추출해도 추정할 표본 크기와 계수가 변경되지 않는다고 가정합니다.

해석

계수 표준 오차를 사용하여 계수 추정치의 정확도를 측정할 수 있습니다. 표준 오차가 작을수록 추정치가 더 정확합니다.

Z-값

Z-값은 계수와 계수의 표준 오차 간의 비율을 측정하는 검정 통계량입니다.

해석

Minitab에서는 항과 모형의 통계적 유의성에 대한 결정을 내릴 때 사용하는 p-값을 계산하기 위해 Z-값을 사용합니다. 이 검정은 표본 계수의 분포가 정규 분포를 따를 정도로 표본 크기가 충분히 클 때 정확합니다.

0에서 충분히 떨어져 있는 Z-값은 계수 추정치가 0과 통계적으로 다를만큼 충분히 크고 정확함을 나타냅니다. 반대로, 0과 가까운 Z-값은 항이 반응에 영향을 미친다고 확신하기에는 계수가 너무 작거나 너무 부정확함을 나타냅니다. .

p-값

p-값은 귀무 가설에 반하는 증거를 측정하는 확률입니다. p-값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 됩니다.

해석

반응과 모형의 각 항 간의 연관성이 통계적으로 유의한지 여부를 확인하려면 항에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 항의 계수가 0으로, 항과 반응 간에 연관성이 없다는 것을 나타냅니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시함)이 적절합니다. 0.05의 유의 수준은 실제로 연관성이 없는데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다.

p-값 ≤ α: 연관성이 통계적으로 유의합니다.: p-값이 유의 수준보다 작거나 같으면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않습니다.: p-값이 유의 수준보다 크면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다. 항 없이 모형을 다시 적합시킬 수도 있습니다.; 반응과 통계적으로 유의한 연관성이 없는 예측 변수가 여러 개 있는 경우 한 번에 하나씩 항을 줄여 모형을 축소할 수 있습니다. 모형에서 항을 제거하는 방법은 모형 축소에서 확인하십시오.

모형 항이 통계적으로 유의한 경우 해석은 항의 유형에 따라 다릅니다. 해석은 다음과 같습니다.

계량형 예측 변수가 유의하면 반응 수준 확률이 예측 변수에 따라 달라진다는 결론을 내릴 수 있습니다.
범주형 예측 변수가 유의하면 반응 수준이 해당 요인 수준에서 발생할 확률이 요인의 기준 수준에서 발생할 확률과 다르다는 결론을 내릴 수 있습니다.
교호작용 항이 유의하면 예측 변수와 반응 수준 확률의 관계가 항의 다른 예측 변수에 따라 다르다는 결론을 내릴 수 있습니다.
다항식 항이 유의하면 예측 변수와 반응 수준 확률의 관계가 예측 변수의 크기에 따라 다르다는 결론을 내릴 수 있습니다.

승산비

승산비는 두 결과의 승산을 비교합니다. 결과의 승산은 비교 결과가 발생할 확률을 기준 결과가 발생할 확률로 나눈 것입니다.

해석

승산비는 예측 변수의 영향을 이해하기 위해 사용합니다. 승산비에 대한 해석은 예측 변수가 범주형인지 아니면 계량형인 지에 따라 달라집니다. 로지스틱 회귀 분석 표에서 비교 결과는 로짓 레이블 뒤에 오는 첫 번째 결과이며, 기준 결과는 두 번째 결과입니다. 기준 결과는 모든 로짓에 대해 동일합니다.

계량형 예측 변수에 대한 승산비

승산비가 1보다 크면 예측 변수가 증가할수록 비교 결과가 발생할 확률이 기준 결과보다 높음을 나타냅니다. 승산비가 1보다 작으면 기준 결과가 발생할 확률이 비교 결과보다 높음을 나타냅니다.

예를 들어 한 학교 관리자가 여러 가지 교수 방법을 평가하려고 합니다. 로짓 1의 경우, 비교 결과는 수학입니다. 로짓 2의 경우, 비교 결과는 미술입니다. 기준 결과는 과학입니다. 로짓 2에서 승산비 추정치는 2.76으로, 1보다 큽니다. 나이가 많을수록 학생이 과학보다 미술을 선호할 확률이 더 높습니다. 나이가 한 살 많아지면 학생이 미술을 선호할 확률이 과학을 선호할 확률보다 3배 더 높아집니다.

로지스틱 회귀 분석 표

						95% CI
예측 변수	계수	SE 계수	Z	P	승산비	하한	상한
로짓 1: (수학/과학)
상수	-1.12266	4.56425	-0.25	0.806
교수 방법
설명	-0.563115	0.937591	-0.60	0.548	0.57	0.09	3.58
나이	0.124674	0.401079	0.31	0.756	1.13	0.52	2.49
로짓 2: (미술/과학)
상수	-13.8485	7.24256	-1.91	0.056
교수 방법
설명	2.76992	1.37209	2.02	0.044	15.96	1.08	234.90
나이	1.01354	0.584494	1.73	0.083	2.76	0.88	8.66

범주형 예측 변수에 대한 승산비

범주형 예측 변수의 경우, 승산비는 예측 변수의 서로 다른 2개 수준에서 비교 결과의 확률을 비교합니다. 비교 수준은 로지스틱 회귀 분석 표에 있으며, 추정 승산비를 갖습니다. 승산비가 1보다 크면 범주형 예측 변수가 기준 수준에서 비교 수준으로 바뀔 때 비교 결과의 확률이 기준 결과에 비해 더 높아짐을 나타냅니다. 승산비가 1보다 작으면 범주형 예측 변수가 기준 수준에서 비교 수준으로 바뀔 때 비교 결과의 확률이 기준 결과에 비해 더 낮아짐을 나타냅니다.

예를 들어 한 학교 관리자가 여러 가지 교수 방법을 평가하려고 합니다. 로짓 1의 경우, 비교 결과는 수학입니다. 로짓 2의 경우, 비교 결과는 미술입니다. 기준 결과는 과학입니다. 로짓 2의 경우 교육 방법에 대한 승산비는 15.96으로, 1보다 큽니다. 교수 방법이 "시연"에서 "설명"으로 바뀌면 학생이 미술을 선호할 확률이 과학을 선호할 확률의 약 16배가 됩니다.

로지스틱 회귀 분석 표

						95% CI
예측 변수	계수	SE 계수	Z	P	승산비	하한	상한
로짓 1: (수학/과학)
상수	-1.12266	4.56425	-0.25	0.806
교수 방법
설명	-0.563115	0.937591	-0.60	0.548	0.57	0.09	3.58
나이	0.124674	0.401079	0.31	0.756	1.13	0.52	2.49
로짓 2: (미술/과학)
상수	-13.8485	7.24256	-1.91	0.056
교수 방법
설명	2.76992	1.37209	2.02	0.044	15.96	1.08	234.90
나이	1.01354	0.584494	1.73	0.083	2.76	0.88	8.66

승산비에 대한 신뢰 구간(95% CI)

이 신뢰 구간(CI)은 승산비의 실제 값이 포함될 가능성이 높은 값의 범위입니다. 신뢰 구간 계산에는 정규 분포가 사용됩니다. 신뢰 구간은 표본 승산비의 분포가 정규 분포를 따를 정도로 표본 크기가 충분히 큰 경우에 정확합니다.

표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 여러 개의 랜덤 표본을 추출하면 일정한 백분율의 신뢰 구간에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간의 백분율이 해당 구간의 신뢰 수준입니다.

신뢰 구간은 다음 두 부분으로 구성됩니다.

점 추정치: 점 추정치는 표본 데이터에서 계산되는 모수의 추정치입니다.
오차 한계: 오차 한계는 신뢰 구간의 너비를 정의하며 사건 확률의 범위, 표본 크기 및 신뢰 수준에 영향을 받습니다.

해석

신뢰 구간은 승산비의 추정치를 평가하는 데 사용합니다.

예를 들어 95% 신뢰 수준에서는 모집단에 대한 승산비의 값이 신뢰 구간에 포함된다고 95% 확신할 수 있습니다. 신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오.

자유도가 1보다 큰 항에 대한 검정

이 검정은 범주형 예측 변수에 대한 모든 계수를 동시에 고려하는 전체 검정입니다. 수준이 2개가 넘는 범주형 예측 변수에 사용하는 검정입니다.

해석

이 검정은 계수가 2개 이상인 범주형 예측 변수가 반응 사건과 통계적으로 유의한 관계가 있는지 확인하기 위해 사용합니다. 범주형 예측 변수의 수준이 3개 이상이면 개별 수준에 대한 계수의 p-값이 각기 다릅니다. 전체 검정은 예측 변수가 통계적으로 유의한지 여부에 대한 답을 하나만 제시합니다.

반응 사건과 범주형 예측 변수의 연관성이 통계적으로 유의한지 확인하려면 검정에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 예측 변수와 반응 사건 간에 연관성이 없다는 것입니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시함)이 적절합니다. 0.05의 유의 수준은 실제로 연관성이 없는데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다.

p-값 ≤ α: 연관성이 통계적으로 유의합니다.: p-값이 유의 수준보다 작거나 같으면 반응 변수와 예측 변수 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않습니다.: p-값이 유의 수준보다 크면 반응 변수와 예측 변수 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다.

로그 우도

Minitab에서는 로그 우도 함수를 극대화하여 추정된 계수의 최적 값을 구합니다.

해석

로그 우도는 동일한 데이터를 사용하여 계수를 추정하는 두 모형을 비교하는 데 사용합니다. 값은 음수이므로 값이 0에 가까울수록 모형이 데이터에 더 적합합니다.

모형에 항을 추가하면 로그 우도가 감소할 수 없습니다. 예를 들어 항이 5개인 모형의 로그 우도는 같은 항을 사용하여 만들 수 있는 4항 모형의 우도보다 높습니다. 따라서 로그 우도는 같은 크기의 모형을 비교할 때 유용합니다. 개별 항에 대한 결정을 내리기 위해서는 일반적으로 다른 로짓의 항에 대한 p-값을 살펴봅니다.

모든 기울기가 0인지 검정

이 검정은 모형의 예측 변수에 대한 계수를 모두 고려하는 전체 검정입니다.

해석

이 검정은 모형의 예측 변수 중 하나 이상이 반응 사건과 통계적으로 유의한 연관성이 있는지 확인하기 위해 사용합니다. 일반적으로 G 통계량 또는 자유도(DF)는 해석하지 않습니다. DF는 모형의 예측 변수에 대한 계수의 수와 같습니다.

반응 사건과 예측 변수의 연관성이 통계적으로 유의한지 확인하려면 검정에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 모형의 예측 변수에 대한 계수가 모두 0이라는 가설이며, 이는 반응 사건과 예측 변수 사이에 연관성이 존재하지 않음을 의미합니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시함)이 적절합니다. 0.05의 유의 수준은 실제로 연관성이 없는 데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다.

p-값 ≤ α: 연관성이 통계적으로 유의합니다.: p-값이 유의 수준보다 작거나 같으면 반응 변수와 하나 이상의 예측 변수 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않습니다.: p-값이 유의 수준보다 크면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다.

Pearson 적합도 검정

Pearson 적합도 검정은 현재 모형과 전체 모형 간의 불일치를 평가합니다.

해석

적합도 검정은 예측 확률이 다항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어나는지 확인하기 위해 사용합니다. 고유 값의 수가 관측치의 수와 대략적으로 같을 때 이 검정은 유용하지 않지만, 같은 예측 변수 값에 여러 관측치가 있을 때는 유용합니다. 적합도 검정의 p-값이 낮으면 예측 확률이 다항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어남을 의미합니다. 다음 리스트에는 편차의 일반적인 이유가 나와 있습니다.

모형에 있는 변수에 대한 고차 항 제외됨
모형에 없는 예측 변수 제외됨

이탈도 적합도 검정

이탈도 적합도 검정은 현재 모형과 전체 모형 간의 불일치를 평가합니다.

해석

모형에 있는 변수에 대한 고차 항 제외됨
모형에 없는 예측 변수 제외됨