범주형 예측 변수의 코드화 방법 정의

범주형 예측 변수를 사용하여 최소 제곱법, 로지스틱 또는 포아송 회귀 분석을 수행하는 경우 Minitab에서는 한 가지 코드화 방법을 사용하여 범주형 예측 변수에서 지시 변수를 만듭니다. 기본 코드화 방법은 1, 0(이진 또는 더미 코드화로도 알려져 있음)으로, 회귀 분석에서 일반적으로 사용됩니다.
  • 1, 0 코드화 방법을 사용하는 경우 계수가 요인 수준과 기준 수준 간의 거리를 나타냅니다.
  • 1, 0, -1 코드화 방법을 사용하는 경우 계수가 요인 수준과 전체 평균 간의 거리를 나타냅니다.
1, 0 코드화를 사용한 예측 변수의 경우, Minitab에서는 기본적으로 데이터 유형을 기반으로 다음과 같은 기준 수준을 설정합니다.
  • 숫자 범주형 예측 변수의 경우 최소 숫자 값이 있는 수준이 기준 수준이 됩니다.
  • 날짜/시간 범주형 예측 변수의 경우 가장 빠른 날짜/시간이 있는 수준이 기준 수준이 됩니다.
  • 텍스트 범주형 예측 변수의 경우 기본적으로 값 순서가 문자순으로 첫 번째인 수준이 기준 수준이 됩니다.
-1, 0, 1 코드화를 사용한 예측 변수의 경우, Minitab에서는 기본적으로 데이터 유형을 기반으로 다음과 같은 기준 수준을 설정합니다.
  • 숫자 범주형 예측 변수의 경우 최대 숫자 값이 있는 수준이 기준 수준이 됩니다.
  • 날짜/시간 범주형 예측 변수의 경우 가장 느린 날짜/시간이 있는 수준이 기준 수준이 됩니다.
  • 텍스트 범주형 예측 변수의 경우 문자순으로 마지막인 수준이 기준 수준이 됩니다.

코드화 방법을 변경하는 방법

회귀 분석, 이항 로지스틱 회귀 분석, 포아송 회귀 분석 등 회귀 분석에서 Minitab은 기본적으로 1, 0 코드화를 사용합니다. 코드화 방법을 -1, 0, 1로 변경하려면 코드화 하위 대화 상자로 이동하십시오. PLS의 경우 옵션 하위 대화 상자에서 기준 수준을 변경할 수 있습니다.

코드화 방법 작동 방식

범주형 예측 변수를 일반 회귀 분석 모형에 포함하기 위해 Minitab에서는 범주가 회귀 방정식에 포함될 수 있도록 코드화합니다. 회귀 분석에서는 이 작업이 자동으로 수행되고 사용되는 코드화 방법을 기반으로 범주형 예측 변수에 대한 열을 생성합니다. 기준 수준을 제외한 각 요인 수준에 대해 하나의 코드 열이 생성됩니다. Minitab은 열을 만들고 한 행이 해당 열 그룹에 속하는 경우 1을 할당합니다. 기준 수준에 대해서는 어떤 열도 생성되지 않습니다. 코드화 방법 및 설계 행렬에 대한 자세한 내용은 Minitab에서 회귀 분석에 설계 행렬을 사용하는 방법에서 확인하십시오.

다음 예는 홍콩, 런던, 뉴욕 등 수준이 3개인 위치에 대한 범주형 예측 변수의 코드화 방법이 작동하는 방식을 보여줍니다. 코드화 방법이 -1, 0, 1인 경우 기본 기준 수준은 뉴욕입니다. 뉴욕에 대해서는 열이 생성되지 않으며 뉴욕에 대한 계수는 출력의 계수 표에 표시되지 않습니다. 홍콩과 런던에 대해서는 열이 생성되며 열의 행이 뉴욕(기준 수준)에 해당하는 경우 -1이 할당됩니다.

위치 홍콩 런던
홍콩 1 0
런던 0 1
뉴욕 -1 -1

코드화 방법이 1, 0인 경우 문자순으로 첫 번째인 홍콩이 기본 기준 수준입니다. 홍콩에 대해서는 열이 생성되지 않으며 홍콩에 대한 계수는 출력의 계수 표에 표시되지 않습니다. 런던과 뉴욕에 대해서는 열이 생성됩니다.

위치 런던 뉴욕
홍콩 0 0
런던 1 0
뉴욕 0 1

회귀 모형 적합의 계수 해석에 대한 자세한 내용은 범주형 예측 변수 해석에서 확인하십시오.

이항 로지스틱 회귀 분석 적합의 계수 해석에 대한 자세한 내용은 이항 로지스틱 회귀 분석에서 추정된 계수 해석에서 확인하십시오.

이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오