범주형 예측 변수의 코드화 방법 정의

범주형 예측 변수를 사용하여 최소 제곱법, 로지스틱 또는 포아송 회귀 분석을 수행하는 경우 Minitab에서는 한 가지 코드화 방법을 사용하여 범주형 예측 변수에서 지시 변수를 만듭니다. 기본 코드화 방법은 1, 0(이진 또는 더미 코드화로도 알려져 있음)으로, 회귀 분석에서 일반적으로 사용됩니다.
  • Using 1, 0 coding, coefficients represent the distance between factor levels and the reference level.
  • 1, 0, -1 코드화 방법을 사용하는 경우 계수가 요인 수준과 전체 평균 간의 거리를 나타냅니다.
1, 0 코드화를 사용한 예측 변수의 경우, Minitab에서는 기본적으로 데이터 유형을 기반으로 다음과 같은 기준 수준을 설정합니다.
  • 숫자 범주형 예측 변수의 경우 최소 숫자 값이 있는 수준이 기준 수준이 됩니다.
  • 날짜/시간 범주형 예측 변수의 경우 가장 빠른 날짜/시간이 있는 수준이 기준 수준이 됩니다.
  • 텍스트 범주형 예측 변수의 경우 기본적으로 값 순서가 문자순으로 첫 번째인 수준이 기준 수준이 됩니다.
For predictors with -1, 0, 1 coding, by default, Minitab sets the following reference levels based on the data type:
  • For numeric categorical predictors, the reference level is the level with the largest numeric value.
  • For date/time categorical predictors, the reference level is the level with the latest date/time.
  • For text categorical predictors, the reference level is the level that is last in alphabetical order.

How to change the coding scheme

회귀 분석, 이항 로지스틱 회귀 분석, 포아송 회귀 분석 등 회귀 분석에서 Minitab은 기본적으로 1, 0 코드화를 사용합니다. 코드화 방법을 -1, 0, 1로 변경하려면 코드화 하위 대화 상자로 이동하십시오. PLS의 경우 옵션 하위 대화 상자에서 기준 수준을 변경할 수 있습니다.

How coding schemes works

범주형 예측 변수를 일반 회귀 분석 모형에 포함하기 위해 Minitab에서는 범주가 회귀 방정식에 포함될 수 있도록 코드화합니다. 회귀 분석에서는 이 작업이 자동으로 수행되고 사용되는 코드화 방법을 기반으로 범주형 예측 변수에 대한 열을 생성합니다. 기준 수준을 제외한 각 요인 수준에 대해 하나의 코드 열이 생성됩니다. Minitab은 열을 만들고 한 행이 해당 열 그룹에 속하는 경우 1을 할당합니다. 기준 수준에 대해서는 어떤 열도 생성되지 않습니다. 코드화 방법 및 설계 행렬에 대한 자세한 내용은 Minitab에서 회귀 분석에 설계 행렬을 사용하는 방법에서 확인하십시오.

다음 예는 홍콩, 런던, 뉴욕 등 수준이 3개인 위치에 대한 범주형 예측 변수의 코드화 방법이 작동하는 방식을 보여줍니다. 코드화 방법이 -1, 0, 1인 경우 기본 기준 수준은 뉴욕입니다. 뉴욕에 대해서는 열이 생성되지 않으며 뉴욕에 대한 계수는 출력의 계수 표에 표시되지 않습니다. 홍콩과 런던에 대해서는 열이 생성되며 열의 행이 뉴욕(기준 수준)에 해당하는 경우 -1이 할당됩니다.

If the location is 홍콩 런던
홍콩 1 0
런던 0 1
뉴욕 -1 -1

코드화 방법이 1, 0인 경우 문자순으로 첫 번째인 홍콩이 기본 기준 수준입니다. 홍콩에 대해서는 열이 생성되지 않으며 홍콩에 대한 계수는 출력의 계수 표에 표시되지 않습니다. 런던과 뉴욕에 대해서는 열이 생성됩니다.

If the location is 런던 뉴욕
홍콩 0 0
런던 1 0
뉴욕 0 1

For more information on interpreting the coefficients for fit regression model, go to Interpreting categorical predictors.

For more information on interpreting the coefficients for fit binary logistic regression, go to 이항 로지스틱 회귀 분석에서 추정된 계수 해석.

이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오