확정 선별 설계를 위한 이항 반응 분석에 대한 주요 결과 해석

선별 설계를 분석하려면 다음 단계를 수행하십시오. 주요 결과에는 Pareto 차트, p-값, 계수, 모형 요약 통계량 및 잔차 그림이 포함됩니다.

1단계: 반응에 가장 큰 영향을 미치는 항 확인

표준화된 효과의 Pareto 차트를 사용하여 주효과, 제곱 효과 및 교호작용 효과의 상대적 크기 및 통계적 유의성을 비교할 수 있습니다.

Minitab은 각 표준화된 효과의 절대값을 내림차순으로 표시합니다. 이때 차트의 기준선은 유의한 효과를 나타냅니다. 기본적으로 Minitab에서는 0.05의 유의 수준을 사용하여 기준선을 그립니다.

주요 결과: Pareto 차트

이 결과에서는 그림에 모형에 있는 항만 포함됩니다. 이 그림은 2개의 주효과가 통계적으로 유의하다는 것을 보여줍니다. 2차 항과 교호작용 효과도 통계적으로 유의합니다.

또한 E 막대의 길이가 가장 길기 때문에 이 효과가 가장 크다는 것을 알 수 있습니다. EE 2차 항 막대의 길이가 가장 짧기 때문에 효과가 가장 작습니다.

2단계: 반응에 통계적으로 유의한 영향을 미치는 항 확인

반응과 모형의 각 항 간의 연관성이 통계적으로 유의한지 여부를 확인하려면 항에 대한 p-값을 유의 수준과 비교하여 귀무 가설을 평가합니다. 귀무 가설은 항의 계수가 0으로, 항과 반응 간에 연관성이 없다는 것을 나타냅니다. 일반적으로 0.05의 유의 수준(α 또는 알파로 표시됨)이 적절합니다. 0.05의 유의 수준은 실제로 연관성이 없는데 연관성이 존재한다는 결론을 내릴 위험이 5%라는 것을 나타냅니다.
p-값 ≤ α: 연관성이 통계적으로 유의함
p-값이 유의 수준보다 작거나 같으면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 있습니다.
p-값 > α: 연관성이 통계적으로 유의하지 않음
p-값이 유의 수준보다 크면 반응 변수와 항 간에 통계적으로 유의한 연관성이 있다는 결론을 내릴 수 없습니다. 항 없이 모형을 다시 적합시킬 수도 있습니다.
반응과 통계적으로 유의한 연관성이 없는 예측 변수가 여러 개 있는 경우 한 번에 하나씩 항을 줄여 모형을 축소할 수 있습니다. 모형에서 항을 제거하는 방법은 모형 축소에서 확인하십시오.
계수가 통계적으로 유의한 경우 해석은 항의 유형에 따라 다릅니다. 해석은 다음과 같습니다.
요인
요인에 대한 계수가 유의하면 사건의 확률이 요인의 모든 수준에 대해 동일하지는 않다는 결론을 내릴 수 있습니다.
요인 간의 교호작용
교호작용 항에 대한 계수가 유의하면 요인과 반응의 관계가 항의 요인에 따라 다릅니다. 이 경우에는 교호작용 효과를 고려하지 않고 주효과를 해석해서는 안 됩니다.
제곱 항
제곱 항에 대한 계수가 유의하면 요인과 반응의 관계가 곡선을 따른다는 결론을 내릴 수 있습니다.
공변량
공변량에 대한 계수가 통계적으로 유의하면 반응과 공변량 간의 연관성이 통계적으로 유의하다는 결론을 내릴 수 있습니다.
블럭
블럭에 대한 계수가 통계적으로 유의하면 블럭에 대한 연결 함수가 평균 값과 다르다는 결론을 내릴 수 있습니다.
항에 대한 VIF 값이 1보다 크며, 이는 다중 공선성이 존재한다는 것을 나타냅니다. 자세한 내용을 보려면 확정 선별 설계를 위한 이항 반응 분석에 대한 계수 표에서 VIF를 클릭하십시오.

선별 설계 이항 로지스틱 회귀: 받아들일 수 있는 색상 대 굽기 시간, 굽기 온도 2

코드화된 계수 항 계수 SE 계수 VIF 상수 2.394 0.145 굽기 시간 0.7349 0.0538 1.11 굽기 온도 2 0.5451 0.0541 1.20 굽기 시간*굽기 시간 -0.384 0.153 1.04 굽기 시간*굽기 온도 2 -0.5106 0.0562 1.24
주요 결과: 계수

이 결과에서는 굽기 시간굽기 온도 2에 대한 계수가 양수입니다. 굽기 시간의 제곱 항에 대한 계수와 굽기 시간굽기 온도 2 사이의 교호작용 항에 대한 계수는 음수입니다. 일반적으로 계수가 양이면 항의 값이 증가함에 따라 사건이 발생할 가능성이 더 높고 계수가 음이면 사건이 발생할 가능성이 낮습니다.

선별 설계 이항 로지스틱 회귀: 받아들일 수 있는 색상 대 굽기 시간, 굽기 온도 2

분산 분석 출처 DF 수정 분산 수정 평균 카이-제곱 P-값 모형 4 737.452 184.363 737.45 0.000 굽기 시간 1 203.236 203.236 203.24 0.000 굽기 온도 2 1 100.432 100.432 100.43 0.000 굽기 시간*굽기 시간 1 6.770 6.770 6.77 0.009 굽기 시간*굽기 온도 2 1 80.605 80.605 80.61 0.000 오차 45 32.276 0.717 총계 49 769.728
주요 결과: p-값

이 결과에서 굽기 시간굽기 온도 2에 대한 주효과는 0.05 수준에서 통계적으로 유의합니다. 이러한 변수의 변화가 반응 변수의 변화와 연관되어 있다는 결론을 내릴 수 있습니다. 모형에 고차항이 있으므로, 주효과에 대한 계수가 이 요인들의 효과를 완전히 설명하지 못합니다.

굽기 시간에 대한 제곱 항은 유의합니다. 이러한 변수의 변화가 반응 변수의 변화와 연관되어 있지만 연관성이 선형이 아니라는 결론을 내릴 수 있습니다.

굽기 시간굽기 온도 2 사이의 교호작용 효과는 유의합니다. 굽기 시간에서 변화의 색상에 대한 효과가 굽기 온도 2의 수준에 종속된다는 결론을 내릴 수 있습니다. 마찬가지로, 굽기 온도 2에서 변화의 색상에 대한 효과가 굽기 시간의 수준에 종속된다는 결론을 내릴 수 있습니다.

3단계: 예측 변수의 효과 이해

예측 변수의 효과를 이해하려면 승산비를 사용합니다. 승산비에 대한 해석은 예측 변수가 범주형인지 아니면 계량형인 지에 따라 달라집니다. 모형에서 로짓 연결 함수를 사용하는 경우 Minitab에서는 승산비를 계산합니다.
계량형 예측 변수에 대한 승산비
1보다 큰 승산비가 1보다 크면 예측 변수가 증가함에 따라 사건 발생 확률이 증가한다는 것을 나타냅니다. 승산비가 1보다 작으면 예측 변수가 증가함에 따라 사건 발생 확률이 감소한다는 것을 나타냅니다.

선별 설계 이항 로지스틱 회귀: 받아들일 수 있는 색상 대 굽기 시간, 굽기 온도 2, 블럭

계량형 예측 변수에 대한 승산비 변경 단위 승산비 95% CI 굽기 시간 2 * ( *, *) 굽기 온도 2 15 2.1653 (1.9652, 2.3858) 승산비는 교호작용 항의 다른 예측 변수 값에 의존하기 때문에 교호작용 항에 포함된 예측 변수에 대해서는 계산되지 않습니다.
주요 결과: 승산비

이 결과에서 모형에는 굽기 시간, 굽기 온도 2, 굽기 시간에 대한 제곱 항과 프레첼 색상이 품질 기준을 충족하는지 예측하기 위한 항의 3개 항이 있습니다. 이 예에서는 허용 가능한 색상이 사건입니다.

변화 단위는 설계에서 코드화된 단위에 대한 차이를 자연 단위로 보여줍니다. 예를 들어, 굽기 온도 2의 낮은 수준은 자연 단위로 127입니다. 높은 수준은 157도입니다. 낮은 수준에서 중간점까지의 거리가 1 코드화된 단위의 변화를 나타냅니다. 이 경우, 이 거리는 15도입니다.

굽기 온도 2에 대한 승산비는 약 2.17입니다. 온도가 15도 증가할 때마다 프레첼 색상을 허용할 수 있는 승산은 약 2.17배 증가합니다.

굽기 시간에 대한 승산비는 모형에 굽기 시간에 대한 제곱 항이 포함되어 있기 때문에 누락됩니다. 값이 굽기 시간 값에 따라 달라지기 때문에 승산비에는 고정된 값이 없습니다.

범주형 예측 변수에 대한 승산비
범주형 예측 변수의 경우 승산비는 예측 변수의 서로 다른 2개 수준에서 사건이 발생할 확률을 비교합니다. Minitab에서는 수준 A와 수준 B, 두 열에 수준을 나열하여 비교를 설정합니다. 수준 B는 요인에 대한 기준 수준입니다. 승산비가 1보다 크면 수준 B에서 사건 발생 확률이 증가한다는 것을 나타냅니다. 승산비가 1보다 작으면 수준 B에서 사건 발생 확률이 감소한다는 것을 나타냅니다. 범주형 예측 변수의 코드화에 대한 자세한 내용은 범주형 예측 변수의 코드화 방법에서 확인하십시오.

이항 로지스틱 회귀 분석: Cancellation 대 월

범주형 예측 변수에 대한 승산비 수준 A 수준 B 승산비 95% CI 월 2 1 1.1250 (0.0600, 21.0867) 3 1 3.3750 (0.2897, 39.3222) 4 1 7.7143 (0.7460, 79.7712) 5 1 2.2500 (0.1107, 45.7226) 6 1 6.0000 (0.5322, 67.6495) 3 2 3.0000 (0.2547, 35.3340) 4 2 6.8571 (0.6556, 71.7201) 5 2 2.0000 (0.0976, 41.0034) 6 2 5.3333 (0.4679, 60.7972) 4 3 2.2857 (0.4103, 12.7323) 5 3 0.6667 (0.0514, 8.6389) 6 3 1.7778 (0.2842, 11.1200) 5 4 0.2917 (0.0252, 3.3719) 6 4 0.7778 (0.1464, 4.1326) 6 5 2.6667 (0.2124, 33.4861) 수준 B에 상대적인 수준 A에 대한 승산비
주요 결과: 승산비

이 결과에서 범주형 예측 변수는 호텔의 성수기 시작된 이후의 달입니다. 반응은 투숙객이 예약을 취소하느냐 여부입니다. 이 예에서는 취소가 사건입니다. 최대 승산비는 수준 A가 월 4이고 수준 B가 월 1일 때 약 7.71입니다. 이는 월 4에 투숙객이 예약을 취소할 확률이 월 1에 예약을 취소할 확률보다 약 8배 높다는 것을 나타냅니다.

4단계: 모형이 데이터를 얼마나 잘 적합시키는지 확인

모형이 데이터를 얼마나 잘 적합시키는지 확인하려면 모형 요약 표의 적합도 통계량을 조사합니다.

참고

많은 모형 요약 및 적합도 통계량은 워크시트에서 데이터가 배열되는 방식 및 행당 시행 횟수에 영향을 받습니다. Hosmer-Lemeshow 검정은 데이터가 배열되는 방식에 영향을 받지 않으며 행당 시행 횟수에 관계없이 유사합니다. 자세한 내용은 이항 로지스틱 회귀 분석에서 데이터 형식이 적합도에 미치는 영향에서 확인하십시오.

이탈도 R-제곱

이탈도 R2 값이 클수록 모형이 데이터를 더 잘 적합시킵니다. 이탈도 R2은 항상 0%에서 100% 사이입니다.

모형에 항을 추가하면 이탈도 R2은 항상 증가합니다. 예를 들어, 최량 항이 5개인 모형은 최량 예측 변수가 4개인 모형보다 항상 이탈도 R2 값이 큽니다. 따라서 이탈도 R2은 같은 크기의 모형을 비교할 때 가장 유용합니다.

데이터 배열은 이탈도 R2 값에 영향을 미칩니다. 일반적으로 행당 시행 횟수가 여러 번인 데이터에 대한 이탈도 R2이 행당 시행 횟수가 한 번인 데이터보다 큽니다. 이탈도 R2 값은 동일한 데이터 형식을 사용하는 모형 간에만 유사합니다.

적합도 통계량은 모형이 데이터를 얼마나 잘 적합시키는 지에 대한 하나의 측도에 지나지 않습니다. 모형에 바람직한 값이 있더라도 해당 모형이 데이터를 충족하는지 확인하려면 잔차 그림 및 적합도 검정을 확인해야 합니다.

이탈도 R-제곱(수정)

항 수가 다른 여러 모형을 비교하려면 수정 이탈도 R2을 사용하십시오. 모형에 항을 추가하면 이탈도 R2은 항상 증가합니다. 수정 이탈도 R2 값은 모형의 항 수에 통합되어 올바른 모형을 선택하는 데 유용합니다.

AIC, AICc 및 BIC
여러 모형을 비교하려면 AIC, AICc 및 BIC를 사용합니다. 각 통계량에 대해 작은 값을 사용하는 것이 바람직합니다. 그러나 예측 변수 집합에 대한 값이 가장 작은 모형이 반드시 데이터를 잘 적합시키는 것은 아닙니다. 모형이 데이터를 얼마나 잘 적합시키는지 평가하려면 적합도 검정과 잔차 그림도 사용하십시오.

선별 설계 이항 로지스틱 회귀: 받아들일 수 있는 색상 대 굽기 시간, 굽기 온도 2, 블럭

모형 요약 이탈도 이탈도 R-Sq R-Sq(수정) AIC AICc BIC 95.81% 95.16% 243.85 245.80 255.32
주요 결과: 이탈도 R-제곱, 이탈도 R-제곱(수정), AIC, AICc, BIC

이 결과에서 모형은 반응 변수에 있는 총 이탈도의 95.81%를 설명합니다. 이러한 데이터의 경우 이탈도 R2 값은 모형이 데이터를 잘 적합시킨다는 것을 나타냅니다. 다른 항을 사용하여 추가 모형이 적합되는 경우 수정된 이탈도 R2 값, AIC 값, AICc 값 및 BIC 값을 사용하여 모형들이 데이터를 얼마나 잘 적합시키는지 비교하십시오.

5단계: 모형이 데이터에 적합하지 않는지 여부 확인

적합도 검정은 예측 확률이 이항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어나는지 확인하기 위해 사용합니다. 적합도 검정의 p-값이 선택한 유의 수준보다 낮으면 예측 확률이 이항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어남을 의미합니다. 다음 리스트에는 이러한 편차의 일반적인 이유가 나와 있습니다.
  • 잘못된 연결 함수
  • 모형에 있는 변수에 대한 고차 항 제외됨
  • 모형에 없는 예측 변수 제외됨
  • 과대산포

편차가 통계적으로 유의한 경우 다른 연결 함수를 사용하거나 모형의 항을 변경할 수 있습니다.

다음 통계량은 적합도를 검정합니다. 이탈도 및 Pearson 통계량은 워크시트에서 데이터가 배열되는 방식 및 행당 시행 횟수의 영향을 받습니다.
  • 이탈도: 행당 단일 시행 형식으로 배열된 데이터에 대한 이탈도 검정의 p-값은 행당 시행 횟수가 여러 번인 데이터에 비해 작은 경향이 있으며, 일반적으로 행당 시행 횟수가 감소함에 따라 감소합니다. 행당 단일 시행 형식 데이터의 경우 Hosmer-Lemeshow 결과를 더 신뢰할 수 있습니다.
  • Pearson: Pearson 검정에서 사용하는 카이-제곱 분포에 대한 근사는 데이터의 행당 기대되는 사건 수가 작은 경우 부정확합니다. 그러므로, 데이터가 행당 단일 시행 형식인 경우 Pearson 적합도 검정이 부정확합니다.
  • Hosmer-Lemeshow: Hosmer-Lemeshow 검정은 다른 적합도 검정처럼 데이터의 행당 시행 횟수에 종속되지 않습니다. 데이터의 행당 시행 횟수가 작은 경우 Hosmer-Lemeshow 검정이 모형이 데이터를 얼마나 잘 적합하는지 나타내는 더 신뢰할 수 있는 지표입니다.

선별 설계 이항 로지스틱 회귀: 받아들일 수 있는 색상 대 굽기 시간, 굽기 온도 2, 블럭

적합도 검정 검정 DF 카이-제곱 P-값 이탈도 44 32.26 0.905 Pearson 44 31.98 0.911 Hosmer-Lemeshow 7 4.18 0.758
사건/시행 형식에 대한 주요 결과: 반응 정보, 이탈도 검정, Pearson 검정, Hosmer-Lemeshow 검정

이 결과에서 모든 적합도 검정의 p-값은 일반적인 유의 수준인 0.05보다 높습니다. 검정은 예측 확률이 이항 분포에서 예측하지 않는 방식으로 관측된 확률에서 벗어난다는 증거를 제공하지 않습니다.

이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오