확정 선별 설계를 위한 이항 반응 분석에 대한 계수 표

계수

회귀 계수는 예측 변수와 반응 변수 간의 관계 크기와 방향을 설명합니다. 계수는 회귀 방정식에서 항의 값에 곱하는 숫자입니다.

해석

예측 변수가 변화함에 따라 사건이 발생할 확률이 증가하는지 또는 감소하는지 여부를 확인하려면 계수를 사용합니다. 항의 계수는 다른 항이 상수로 고정된 상태에서 해당 항이 1 코드화된 단위만큼 증가하는 경우 연결 함수의 변화를 나타냅니다.

효과의 크기는 일반적으로 하나의 항이 반응 변수에 미치는 영향의 실제적 유의성을 평가하는 좋은 방법입니다. 그러나 유의성에 대한 계산에서는 반응 데이터의 변동도 고려하기 때문에 효과의 크기는 항이 통계적으로 유의한지 여부를 나타냅니다. 통계적 유의성을 확인하려면 항에 대한 p-값을 조사하십시오.

계수와 확률 간의 관계는 연결 함수, 반응에 대한 기준 사건, 모형에 있는 범주형 예측 변수에 대한 기준 수준과 같은 분석의 여러 측면에 종속됩니다. 일반적으로 계수가 양이면 사건이 발생할 가능성이 더 높고 계수가 음이면 사건이 발생할 가능성이 낮습니다. 추정된 계수가 0에 가까우면 예측 변수의 효과가 작다는 것을 나타냅니다.

블럭과 같이 요인이 아닌 항에는 높은 수준과 낮은 수준이 없습니다.
공변량
공변량에 대한 계수는 공변량과 같은 단위입니다. 계수는 공변량의 한 단위 증가에 대한 연결 함수의 변화를 나타냅니다. 계수가 음수이면 공변량이 증가함에 따라 확률이 감소합니다. 계수가 양수이면 공변량이 증가함에 따라 확률이 증가합니다. 공변량은 코드화되지 않고 일반적으로 요인에 직교하지 않기 때문에 공변량이 있으면 VIF 값이 증가합니다. 자세한 내용은 VIF 관련 절을 참조하십시오.
블럭
블럭은 (−1, 0, +1) 코드화 방법을 사용하는 범주형 변수입니다. 각 계수는 블럭에 대한 연결 함수와 평균 값 간의 차이를 나타냅니다.

로짓 연결 함수의 해석

로짓 연결 함수는 추정된 계수에 대해 가장 자연스러운 해석을 제공하므로 Minitab의 기본 연결 함수입니다. 해석에서는 기준 사건의 승산이 P(사건)/P(비사건)이라는 사실을 이용하며 기타 예측 변수가 일정하다고 가정합니다. 로그 승산이 클수록 기준 사건의 가능성이 더 높습니다. 따라서 계수가 양이면 사건이 발생할 가능성이 더 높고 계수가 음이면 사건이 발생할 가능성이 낮습니다. 요인의 여러 유형은 다음과 같이 해석됩니다.

계량형 요인
계량형 요인의 계수는 요인의 코드화된 단위가 하나 증가할 때마다 기준 사건에 대한 승산의 자연 로그에 있어 추정되는 변화입니다. 예를 들어, 시간 요인의 각 코드화된 단위가 30초의 변화를 나타내고 시간에 대한 계수가 1.4인 경우 시간이 30초 증가하면 승산의 자연 로그가 1.4배 증가합니다.
추정된 계수는 승산비 또는 두 승산 간의 비율을 계산하는 데도 사용될 수 있습니다.
범주형 요인
범주형 요인의 계수는 하나의 코드화된 단위 변화에 대해 사건 승산의 자연 로그에 있어 추정되는 변화입니다. 범주형 요인의 낮은 수준과 높은 수준의 차이는 2 코드화된 단위입니다. 예를 들어, 범주형 변수에 빠름 수준과 느림 수준이 있습니다. 느림은 낮은 수준이며 -1로 코드화됩니다. 빠름은 높은 수준이며 +1로 코드화됩니다. 변수에 대한 계수가 1.3이면 느림에서 빠름으로 변경되는 경우 사건 승산의 자연 로그가 2.6배 증가합니다.
추정된 계수는 승산비 또는 두 승산 간의 비율을 계산하는 데도 사용될 수 있습니다.

SE 계수

계수의 표준 오차는 동일한 모집단에서 반복해서 표본을 추출하는 경우 얻을 수 있는 계수 추정치 간의 변동성을 추정합니다. 이 계산에서는 반복해서 표본을 추출해도 추정할 표본 크기와 계수가 변경되지 않는다고 가정합니다.

해석

계수 표준 오차를 사용하여 계수 추정치의 정확도를 측정할 수 있습니다. 표준 오차가 작을수록 추정치가 더 정확합니다.

계수에 대한 신뢰 구간(95% CI)

신뢰 구간(CI)은 모형의 각 항에 대한 계수의 실제 값이 포함될 가능성이 높은 값의 범위입니다.

표본이 랜덤이기 때문에 모집단의 두 표본에서 동일한 신뢰 구간이 생성될 가능성은 없습니다. 그러나 여러 개의 랜덤 표본을 추출하면 일정한 백분율의 신뢰 구간에는 알 수 없는 모집단 모수가 포함됩니다. 모수를 포함하는 이러한 신뢰 구간의 백분율이 해당 구간의 신뢰 수준입니다.

신뢰 구간은 다음 두 부분으로 구성됩니다.
점 추정치
이 단일 값은 표본 데이터를 사용하여 모집단 모수를 추정합니다.
오차 한계
오차 한계는 신뢰 구간의 너비를 정의하며 사건 확률의 범위, 표본 크기 및 신뢰 수준에 영향을 받습니다.

해석

모형의 각 항에 대한 모집단 계수의 추정치를 평가하려면 신뢰 구간을 사용합니다.

예를 들어, 95% 신뢰 수준에서 신뢰 구간에 모집단에 대한 계수 값이 포함된다고 95% 확신할 수 있습니다. 신뢰 구간은 결과의 실제 유의성을 평가하는 데 도움이 됩니다. 해당 상황에 실제적으로 유의한 값이 신뢰 구간에 포함되는지 여부를 확인하려면 전문 지식을 활용하십시오. 신뢰 구간이 너무 넓어서 유의하지 않은 경우에는 표본 크기를 늘려보십시오.

Z-값

Z-값은 계수와 계수의 표준 오차 간의 비율을 측정하는 Wald 검정에 대한 검정 통계량입니다.

해석

Minitab에서는 Z-값을 사용하여 항과 모형의 통계적 유의성에 대한 결정을 내릴 때 사용하는 p-값을 계산합니다. Wald 검정은 표본 계수의 분포가 정규 분포를 따를 정도로 표본 크기가 충분히 클 때 정확합니다.

0에서 충분히 떨어져 있는 Z-값은 계수 추정치가 0과 통계적으로 다를만큼 충분히 크고 정확함을 나타냅니다. 반대로, 0과 가까운 Z-값은 항이 반응에 영향을 미친다고 확신하기에는 계수가 너무 작거나 너무 부정확함을 나타냅니다. .

이탈도 표의 검정은 우도비 검정입니다. 계수 표가 확장된 검정은 Wald 근사 검정입니다. 표본이 작은 경우 우도비 검정이 Wald 근사 검정보다 더 정확합니다.

p-값

p-값은 귀무 가설에 반하는 증거를 측정하는 확률입니다. p-값이 작을수록 귀무 가설에 반하는 더 강력한 증거가 됩니다.

이탈도 표의 검정은 우도비 검정입니다. 계수 표가 확장된 검정은 Wald 근사 검정입니다. 표본이 작은 경우 우도비 검정이 Wald 근사 검정보다 더 정확합니다.

해석

계수가 0과 통계적으로 다르다는 증거를 제공하는지 여부를 확인하려면 항에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가하십시오. 귀무 가설은 계수가 0으로, 항과 반응 간에 연관성이 없다는 것을 나타냅니다.

일반적으로 0.05의 유의 수준(α 또는 알파로 표시됨)이 적절합니다. 0.05의 유의 수준은 계수가 0이 아닌데 0이라는 결론을 내릴 위험이 5%라는 것을 나타냅니다.

p-값 ≤ α: 연관성이 통계적으로 유의함
p-값이 유의 수준보다 작거나 같으면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않음
p-값이 유의 수준보다 크면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다. 항 없이 모형을 다시 적합시킬 수도 있습니다.
반응과 통계적으로 유의한 연관성이 없는 예측 변수가 여러 개 있는 경우 한 번에 하나씩 항을 줄여 모형을 축소할 수 있습니다. 모형에서 항을 제거하는 방법은 모형 축소에서 확인하십시오.
계수가 통계적으로 유의한 경우 해석은 항의 유형에 따라 다릅니다. 해석은 다음과 같습니다.
요인
요인에 대한 계수가 유의하면 사건의 확률이 요인의 모든 수준에 대해 동일하지는 않다는 결론을 내릴 수 있습니다.
요인 간의 교호작용
교호작용 항에 대한 계수가 유의하면 요인과 반응의 관계가 항의 요인에 따라 다릅니다. 이 경우에는 교호작용 효과를 고려하지 않고 주효과를 해석해서는 안 됩니다.
제곱 항
제곱 항에 대한 계수가 유의하면 요인과 반응의 관계가 곡선을 따른다는 결론을 내릴 수 있습니다.
공변량
공변량에 대한 계수가 통계적으로 유의하면 반응과 공변량 간의 연관성이 통계적으로 유의하다는 결론을 내릴 수 있습니다.
블럭
블럭에 대한 계수가 통계적으로 유의하면 블럭에 대한 연결 함수가 평균 값과 다르다는 결론을 내릴 수 있습니다.

로짓 연결 함수의 해석

로짓 연결 함수는 추정된 계수에 대해 가장 자연스러운 해석을 제공하므로 Minitab의 기본 연결 함수입니다. 해석에서는 기준 사건의 승산이 P(사건)/P(비사건)이라는 사실을 이용하며 기타 예측 변수가 일정하다고 가정합니다. 로그 승산이 클수록 기준 사건의 가능성이 더 높습니다. 따라서 계수가 양이면 사건이 발생할 가능성이 더 높고 계수가 음이면 사건이 발생할 가능성이 낮습니다. 요인의 여러 유형은 다음과 같이 해석됩니다.

계량형 요인
계량형 요인의 계수는 요인의 코드화된 단위가 하나 증가할 때마다 기준 사건에 대한 승산의 자연 로그에 있어 추정되는 변화입니다. 예를 들어, 시간 요인의 각 코드화된 단위가 30초의 변화를 나타내고 시간에 대한 계수가 1.4인 경우 시간이 30초 증가하면 승산의 자연 로그가 1.4배 증가합니다.
추정된 계수는 승산비 또는 두 승산 간의 비율을 계산하는 데도 사용될 수 있습니다.
범주형 요인
범주형 요인의 계수는 하나의 코드화된 단위 변화에 대해 사건 승산의 자연 로그에 있어 추정되는 변화입니다. 범주형 요인의 낮은 수준과 높은 수준의 차이는 2 코드화된 단위입니다. 예를 들어, 범주형 변수에 빠름과 느림 수준이 있습니다. 느림은 낮은 수준이며 -1로 코드화됩니다. 빠름이 높은 수준이며 +1로 코드화됩니다. 변수에 대한 계수가 1.3이면 느림에서 빠름으로 변경되는 경우 사건 승산의 자연 로그가 2.6배 증가합니다.
추정된 계수는 승산비 또는 두 승산 간의 비율을 계산하는 데도 사용될 수 있습니다.

VIF

분산 팽창 인수(VIF)는 계수의 분산이 모형 내 예측 변수 간의 상관 관계로 인해 얼마나 팽창되는지 나타냅니다.

해석

VIF를 사용하여 모형에 다중 공선성(예측 변수 사이의 상관)이 얼마나 있는지 설명합니다. 대부분의 요인 설계에서는 모든 VIF 값이 1이며, 이는 예측 변수에 다중 공선성이 없음을 나타냅니다. 다중 공선성이 없으면 통계적 유의성을 쉽게 확인할 수 있습니다. 모형에 공변량을 포함하거나 데이터를 수집하는 동안 변형된 런이 발생하는 경우 일반적으로 VIF 값이 증가하며, 이 경우 통계적 유의성을 해석하기 어렵습니다. 또한 이항 반응의 경우에는 VIF 값이 보통 1보다 큽니다.

VIF를 해석하려면 다음 지침을 사용하십시오.
VIF 예측 변수의 상태
VIF = 1 상관되지 않음
1 < VIF < 5 적당히 상관됨
VIF > 5 많이 상관됨
많이 상관된 예측 변수는 다중 공선성이 회귀 계수의 분산을 증가시킬 수 있기 때문에 문제가 있습니다. 다음은 불안정적인 계수의 일부 결과입니다.
  • 예측 변수와 반응 간에 중요한 관계가 존재하는 경우에도 계수가 통계적으로 유의하지 않은 것으로 보일 수 있습니다.
  • 높은 상관 관계가 있는 예측 변수에 대한 계수는 표본에 따라 크게 달라질 수 있습니다.
  • 높은 상관 관계가 있는 모형 항을 제거하면 높은 상관 관계가 있는 다른 항의 추정 계수에 크게 영향을 미칩니다. 높은 상관 관계가 있는 항의 계수로 인해 효과의 방향이 변경될 수도 있습니다.

다중 공선성이 존재하는 경우 모형에서 통계적 유의성을 사용하여 모형에서 제거할 항을 선택할 때 주의해야 합니다. 한 번에 하나의 항만 모형에 추가하거나 삭제하십시오. 모형을 변경함에 따라 모형 요약 통계량의 변동뿐만 아니라 통계적 유의성의 검정도 모니터링하십시오.