두 가지 방법은 결과에 사소한 차이점을 생성합니다. 예를 들어 두 메서드로 결과를 저장하는 경우 예측 통계는 워크시트에 있지만 최고의 모형 검색(이항 반응) 출력 창에 회귀 방정식도 표시되는 버전도 표시됩니다. 버전에 이항 로지스틱 모형 적합 적합의 표준 오류와 핏에 대한 신뢰 구간이 포함될 수 있습니다. 두 방법 모두 출력 창의 결과에는 회귀 방정식, 예측 변수의 설정 및 예측 테이블이 포함됩니다.
이항 로지스틱 회귀 분석의 경우 Minitab에서는 두 가지 유형의 회귀 방정식을 표시합니다. 첫 번째 방정식은 사건의 확률을 변환된 반응과 관련시킵니다. 첫 번째 방정식의 형식은 연결 함수에 따라 다릅니다.
두 번째 방정식은 예측 변수를 변환된 반응과 관련시킵니다. 모형에 연속형 예측 변수와 범주형 예측 변수가 모두 포함되어 있는 경우 두 번째 방정식이 각 범주 조합별로 분리될 수 있습니다.
반응과 예측 변수 간의 관계를 조사하려면 방정식을 사용하십시오.
첫 번째 방정식은 로짓 연결 함수로 인한 확률과 변환된 반응 간의 관계를 보여줍니다.
두 번째 방정식은 수입과 고객에게 자녀가 있는지 여부가 변환된 반응과 어떤 관계가 있는지 보여줍니다. 고객에게 자녀가 없는 경우 수입에 대한 계수는 약 0.04입니다. 고객에게 자녀가 있는 경우 계수는 약 0.02입니다. 이러한 방정식의 경우, 고객의 수입이 많을수록 제품을 구입할 가능성이 높습니다. 그러나 고객에게 자녀가 없을 경우 수입이 고객의 제품 구매 여부에 더 강력한 영향을 미칩니다.
P(1) | = | exp(Y')/(1 + exp(Y')) |
---|
자녀 | |||
---|---|---|---|
아니요 | Y' | = | -3.549 + 0.04296 수입 |
예 | Y' | = | -1.076 + 0.01565 수입 |
모형이 비계층적이고 계량형 예측 변수를 표준화한 경우 회귀 방정식이 코드화된 단위로 표시됩니다. 자세한 내용은 코드화된 계수 단원을 참조하십시오. 계층 구조에 대한 자세한 내용은 계층적 모형의 정의 에서 확인하십시오.
Minitab에서는 회귀 방정식과 변수 설정을 사용하여 적합치를 계산합니다. 이항 로지스틱 모형 적합 를 사용하여 모델을 생성하고 변수 설정이 모델을 추정하는 데 사용된 데이터와 비교하여 비정상적인 경우 예측 아래에 경고가 표시됩니다.
분석을 제대로 수행했는지 확인하려면 변수 설정 표를 사용하십시오.
모델을 만들 때 최고의 모형 검색(이항 반응) 예측 테이블에는 관측 번호, 예측 클래스 및 각 클래스의 멤버 자격 가능성이 표시됩니다. 모델을 만들 때 이항 로지스틱 모형 적합 예측 테이블에는 장착된 확률이 포함됩니다.
사건 확률은 특정 결과 또는 사건이 발생하는 확률입니다. 사건 확률은 카드 한 벌에서 에이스를 뽑거나 불량 부품을 제조하는 것과 같은 사건의 발생 가능성을 추정합니다. 사건 확률의 범위는 0(불가능)에서 1(확실)까지입니다.
이항 로지스틱 분석에서, 반응 변수는 특정 질병의 유/무와 같이 둘 중 하나의 값을 가질 수 있습니다. 사건 확률은 지정된 요인 또는 공변량 패턴에 대한 반응이 1일 가능성입니다(예를 들어, 50대 이상의 여성이 2종 당뇨병에 걸릴 가능성).
실험에서 각각의 수행을 시행이라고 합니다. 예를 들어, 동전을 10번 던져서 앞면이 나오는 횟수를 기록하는 경우 실험을 10번 시행하는 것입니다. 시행이 독립적이고 거의 동일하다면 사건 수를 총 시행 수로 나누어 사건 확률을 추정할 수 있습니다. 예를 들어, 동전을 10번 던져서 앞면이 6번 나온 경우 사건의 추정 확률은 다음과 같습니다.
사건 수 ÷ 시행 수 = 6 ÷ 10 = 0.6
SE 맞춤은 모델을 만들 때 예측 테이블에 이항 로지스틱 모형 적합 있습니다. 적합치의 표준 오차(SE 적합치)는 지정된 변수 설정에 대해 추정된 평균 반응의 변동량을 추정합니다. 평균 반응의 신뢰 구간 계산에는 적합치의 표준 오차가 사용됩니다. 표준 오차는 항상 음수가 아닙니다.
평균 반응의 추정치 정확도를 측정하려면 적합치의 표준 오차를 사용하십시오. 표준 오차가 작을수록 예측된 평균 반응이 더 정확합니다. 예를 들어 한 분석가가 배송 시간을 예측하는 모형을 개발합니다. 변수 설정 집합 하나에 대해 모형은 평균 배송 시간을 3.80일로 예측합니다. 해당 설정에 대한 적합치의 표준 오차는 0.08일입니다. 두 번째 변수 설정 집합에 대해 모형은 적합치의 표준 오차가 0.02일인 동일한 평균 배송 시간을 산출합니다. 분석가는 두 번째 변수 설정 집합의 평균 배송 시간이 3.80일에 가깝다는 것을 더 신뢰할 수 있습니다.
적합치의 표준 오차를 적합치와 함께 사용하여 평균 반응의 신뢰 구간을 생성할 수 있습니다. 예를 들어 95% 신뢰 구간은 자유도에 따라 예측 평균의 위아래로 표준 오차의 약 2배만큼 확장됩니다. 배송 시간의 경우 표준 오차가 0.08일 때 예측된 평균인 3.80일에 대한 95% 신뢰 구간은 (3.64, 3.96)일입니다. 모집단 평균이 이 범위 안에 있다고 95% 신뢰할 수 있습니다. 표준 오차가 0.02일 때 95% 신뢰 구간은 (3.76, 3.84)일입니다. 두 번째 변수 설정 집합의 신뢰 구간은 표준 오차가 더 작기 때문에 더 좁습니다.
모델을 만들 때 적합에 대한 신뢰 도는 예측 테이블에 이항 로지스틱 모형 적합 있습니다. 이러한 신뢰 구간(CI)은 모형에 있는 예측 변수의 관측된 값이 있는 모집단에 대한 사건 발생 확률이 포함될 가능성이 높은 값의 범위입니다.
표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 표본을 여러 번 추출하면 일정한 백분율의 신뢰 구간에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간의 백분율이 해당 구간의 신뢰 수준입니다.
변수의 관측치에 대한 적합치의 추정치를 평가하려면 신뢰 구간을 사용합니다.
예를 들어, 95% 신뢰 수준에서 신뢰 구간에 모형 내 변수의 지정된 값에 대한 사건 발생 확률이 포함된다고 95% 확신할 수 있습니다. 신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 이용하십시오. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오.