The coding schemes for categorical predictors

범주형 예측 변수를 사용하여 회귀 분석을 수행하는 경우 Minitab에서는 한 가지 코드화 방법을 사용하여 범주형 예측 변수에서 지시 변수를 만듭니다. 모형이 더 복잡해져도 해석은 비슷합니다. 그러나 공변량을 추가하거나 각 그룹 내의 표본 크기가 같지 않을 경우에는 산술 평균(관측치의 합을 n으로 나눈 값) 대신 각 요인 수준에 대한 가중 평균을 사용하여 계수가 계산됩니다. 그러나 해석은 일반적으로 같습니다.
  • 1, 0 코드화 방법을 사용하는 경우 계수가 요인 수준과 기준 수준 간의 거리를 나타냅니다.
  • 1, 0, -1 코드화 방법을 사용하는 경우 계수가 요인 수준과 전체 평균 간의 거리를 나타냅니다.

By default, Minitab uses the (1,0) coding scheme for regression, but you can choose to change it to the (-1, 0, +1) coding scheme in the 코드화 subdialog box. For more information, go to Coding schemes for categorical predictors.

요인이 하나인 모형을 위한 코드화 방법 해석

요인이 하나인 예의 데이터

먼저 요인 수준이 3개인 균형 1-요인 설계를 고려해 보겠습니다.

C1 C2 - T
반응 요인
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

요인이 하나인 예의 기술 통계량

평균에 집중하여 기술 통계량을 조사합니다.

통계량 전체 변수 카운트 평균 반응 12 5.000
통계량 전체 변수 요인 카운트 평균 반응 A 4 2.000 B 4 4.500 C 4 8.500

요인이 하나인 셀 평균 모형 (0, 1)을 위한 코드화 방법 해석의 예

결과를 얻으려면 다음 작업을 수행하십시오.
  1. 통계분석 > 회귀 분석 > 회귀 분석 > 적합 회귀 모형을 선택합니다.
  2. 반응반응을 입력합니다.
  3. 범주형 예측 변수요인을 입력합니다.
  4. 코드화을 클릭합니다. 기준 수준에서 C을 선택합니다.
  5. 각 대화 상자에서 확인을 클릭합니다.
계수 항 계수 SE 계수 T-값 P-값 VIF 상수 8.500 0.577 14.72 0.000 요인 A -6.500 0.816 -7.96 0.000 1.33 B -4.000 0.816 -4.90 0.001 1.33
분산 분석 출처 DF Adj SS Adj MS F-값 P-값 회귀 2 86.00 43.000 32.25 0.000 요인 2 86.00 43.000 32.25 0.000 오차 9 12.00 1.333 총계 11 98.00
요인 수준 평균은 다음과 같습니다.
  • A = 2.0
  • B = 4.5
  • C = 8.5

추정되는 회귀 방정식은 다음과 같습니다.

회귀 방정식 반응 = 8.500 - 6.500 요인_A - 4.000 요인_B + 0.0 요인_C

수준 C가 기준 수준이므로, 계수가 0입니다. 요인이 하나뿐인 경우 절편은 기준 수준의 평균과 같습니다.

수준 A에 해당하는 계수는 –6.5입니다. 이는 수준 A와 기준 수준 간의 차이입니다. A에 대한 계수에 절편(또는 기준 평균)을 더하면 수준 A에 대한 평균을 얻게 됩니다(–6.5 + 8.5 = 2.0).

마찬가지로, 수준 B에 해당하는 계수는 –4.0입니다. 이는 수준 B와 기준 수준 간의 차이입니다. 수준 B에 대한 계수에 절편을 더하면 수준 B에 대한 평균을 얻게 됩니다(–4.0 + 8.5 = 4.5).

요인이 하나인 요인 효과 모형 (-1, 0, +1)을 위한 코드화 방법 해석의 예

다음과 같은 결과를 얻으려면:
  1. 통계분석 > 회귀 분석 > 회귀 분석 > 적합 회귀 모형을 선택합니다.
  2. 반응반응을 입력합니다.
  3. 범주형 예측 변수요인을 입력합니다.
  4. 코드화을 클릭합니다. 범주형 예측 변수 코드화에서 (-1, 0, +1)을 선택합니다.
  5. 각 대화 상자에서 확인을 클릭합니다.

회귀 분석: 반응 대 요인

분산 분석 출처 DF Adj SS Adj MS F-값 P-값 회귀 2 86.00 43.000 32.25 0.000 요인 2 86.00 43.000 32.25 0.000 오차 9 12.00 1.333 총계 11 98.00
계수 항 계수 SE 계수 T-값 P-값 VIF 상수 5.000 0.333 15.00 0.000 요인 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33
전체 평균과 요인 수준 평균은 다음과 같습니다.
  • 전체 평균 = 5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5

회귀 방정식:

회귀 분석: 반응 대 요인

회귀 방정식 반응 = 5.000 - 3.000 요인_A - 0.500 요인_B + 3.500 요인_C
특정 요인 수준의 효과는 수준 평균 – 전체 평균입니다. 즉, 다음과 같습니다.
  • 수준 A 효과 = 2.0 - 5.0 = -3.0
  • 수준 B 효과= 4.5 - 5.0 = -0.5
  • 수준 C 효과 = 8.5 - 5.0 = 3.5

절편은 전체 평균입니다.

A에 대한 계수는 요인 수준 A의 효과입니다. 이는 수준 A에 대한 평균과 전체 평균 간의 차이입니다.

B에 대한 계수는 요인 수준 B의 효과입니다. 이는 수준 B에 대한 평균과 전체 평균 간의 차이입니다.

절편을 제외하고 계수를 모두 더하고 -1을 곱하면 수준 C의 효과 크기를 얻을 수 있습니다(-1 * [(-3.0) + (-0.5)] = 3.5).

효과 크기에 전체 평균을 더하면 수준 평균을 구할 수 있습니다.
  • 수준 A에 대한 평균 = A에 대한 계수 + 절편 = -3.0 + 5.0 = 2.0
  • 수준 B에 대한 평균 = B에 대한 계수 + 절편 = -0.5 + 5.0 = 4.5
  • 수준 C에 대한 평균 = 절편 - A에 대한 계수 - B에 대한 계수 = 5.0 – (- 3.0) – (-0.5) = 5.0 + 3.0 + 0.5 = 8.5

요인이 두 개인 경우에 대한 코드화 방법 해석

요인이 두 개인 예의 데이터

이제 요인 수준이 세 개인 첫 번째 요인과 요인 수준이 두 개인 두 번째 요인이 있는 균형 2-요인 설계를 고려해 보겠습니다.

C1 C2 - T C3 - T
반응 요인 1 요인 2
1 A 높음
3 A 낮음
2 A 높음
2 A 낮음
4 B 높음
6 B 낮음
3 B 높음
5 B 낮음
8 C 높음
9 C 낮음
7 C 높음
10 C 낮음

요인이 두 개인 예의 기술 통계량

평균에 집중하여 기술 통계량을 조사합니다.

행: 요인 1 열: 요인 2 낮음 높음 모두 A 2.500 1.500 2.000 B 5.500 3.500 4.500 C 9.500 7.500 8.500 모두 5.833 4.167 5.000 셀 내용 반응 : 평균

요인이 두 개인 셀 평균 모형 (0, 1)을 위한 코드화 방법 해석의 예

다음과 같은 결과를 얻으려면:
  1. 통계분석 > 회귀 분석 > 회귀 분석 > 적합 회귀 모형을 선택합니다.
  2. 반응반응을 입력합니다.
  3. 범주형 예측 변수요인 1요인 2을 입력합니다.
  4. 코드화을 클릭합니다. 범주형 예측 변수 코드화에서 (1, 0)을 선택합니다.
  5. 기준 수준에서 요인 1에 대해 C, 요인 2에 대해 낮음을 선택합니다.
  6. 각 대화 상자에서 확인을 클릭합니다.
계수 항 계수 SE 계수 T-값 P-값 VIF 상수 9.333 0.391 23.88 0.000 요인 1 A -6.500 0.479 -13.58 0.000 1.33 B -4.000 0.479 -8.36 0.000 1.33 요인 2 높음 -1.667 0.391 -4.26 0.003 1.00
분산 분석 출처 DF Adj SS Adj MS F-값 P-값 회귀 3 94.3333 31.4444 68.61 0.000 요인 1 2 86.0000 43.0000 93.82 0.000 요인 2 1 8.3333 8.3333 18.18 0.003 오차 8 3.6667 0.4583 적합성 결여 2 0.6667 0.3333 0.67 0.548 순수 오차 6 3.0000 0.5000 총계 11 98.0000
요인 수준 평균은 다음과 같습니다.
  • A = 2.0
  • B = 4.5
  • C = 8.5

추정되는 회귀 방정식은 다음과 같습니다.

회귀 방정식 반응 = 9.333 - 6.500 요인 1_A - 4.000 요인 1_B + 0.0 요인 1_C + 0.0 요인 2_낮음 - 1.667 요인 2_높음

수준 A에 해당하는 계수는 다시 –6.5입니다. 이는 여전히 수준 A와 기준 수준(수준 C) 간의 차이입니다. 수준 A에 대한 평균에서 기준 수준에 대한 평균을 빼면 계수가 얻어집니다(2 – 8.5 = -6.5).

마찬가지로, 수준 B에 해당하는 계수는 여전히 –4.0입니다. 이는 수준 B와 요인 1의 기준 수준 간의 거리입니다 수준 B에 대한 평균에서 기준 수준에 대한 평균을 빼면 계수를 얻게 됩니다(4.5 - 8.5 = -4.0).

마지막으로, 요인 2의 높음 수준에 해당하는 계수는 "높음"과 요인 2의 기준 수준(낮음) 간의 거리입니다. 따라서 요인 2의 높음 수준에 대한 평균에서 요인 2의 기준 수준에 대한 평균을 빼면 계수가 얻어집니다(4.1667 – 5.8333 = -1.667).

요인이 두 개인 요인 효과 모형 (-1, 0, +1)을 위한 코드화 방법 해석의 예

다음과 같은 결과를 얻으려면:
  1. 통계분석 > 회귀 분석 > 회귀 분석 > 적합 회귀 모형을 선택합니다.
  2. 반응반응을 입력합니다.
  3. 범주형 예측 변수요인 1요인 2을 입력합니다.
  4. 코드화을 클릭합니다. 범주형 예측 변수 코드화에서 (-1, 0, +1)을 선택합니다.
  5. 각 대화 상자에서 확인을 클릭합니다.

회귀 분석: 반응 대 요인 1

분산 분석 출처 DF Adj SS Adj MS F-값 P-값 회귀 2 86.00 43.000 32.25 0.000 요인 1 2 86.00 43.000 32.25 0.000 오차 9 12.00 1.333 총계 11 98.00
계수 항 계수 SE 계수 T-값 P-값 VIF 상수 5.000 0.333 15.00 0.000 요인 1 A -3.000 0.471 -6.36 0.000 1.33 B -0.500 0.471 -1.06 0.316 1.33

이 코드화 방법을 사용하는 경우 계수가 1-요인 모형에서 변경되지 않습니다. 이제 두 번째 요인에 대한 추가 계수를 갖게 됩니다.

이제 전체 평균과 요인 수준 평균을 고려해 보겠습니다.
  • 전체 평균 = 5.0
  • A = 2.0
  • B = 4.5
  • C = 8.5
  • 높음 = 4.1667
  • 낮음 = 5.8333

회귀 방정식:

회귀 분석: 반응 대 요인 1

회귀 방정식 반응 = 5.000 - 3.000 요인 1_A - 0.500 요인 1_B + 3.500 요인 1_C
특정 요인 수준의 효과는 수준 평균 – 전체 평균입니다. 즉, 다음과 같습니다.
  • 수준 A 효과 = 2.0 - 5.0 = -3.0
  • 수준 B 효과= 4.5 - 5.0 = -0.5
  • 수준 C 효과 = 8.5 - 5.0 = 3.5
  • 수준 높음 효과 = 4.1667 – 5.0 = -0.883
  • 수준 낮음 효과 = 5.8333 – 5.0 = 0.883
참고

수준이 두 개뿐이고 표본 크기가 같은 경우, 평균이 정확히 가운데 있기 때문에 수준 효과의 크기가 같습니다.

절편은 전체 평균입니다.

계수는 각 요인 수준의 효과입니다. 이것은 해당 수준에 대한 평균과 전체 평균 간의 차이를 나타냅니다.

이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오