적합 회귀 모형선형 회귀에 대한 단계적 회귀 수행

통계분석 > 회귀 분석 > 회귀 분석 > 적합 회귀 모형 > 단계적 회귀 분석

예측 분석 모듈 > 선형 회귀 > 단계적 회귀 분석

방법

단계적 방법은 항을 제거하고 항의 유용한 부분 집합을 식별하기 위해 모형에 항을 추가합니다. 단계적 절차를 선택하는 경우 모형 대화 상자에서 지정한 항은 최종 모형의 후보입니다. 자세히 알려면 단계적 회귀 분석 및 최량 부분 집합 회귀 분석 사용(으)로 이동하십시오.

Minitab이 모형 적합에 사용하는 방법을 지정합니다.
  • 없음: 모형 대화 상자에서 지정한 모든 항과 모형을 적합시킵니다.
  • 단계적 회귀 분석: 이 방법은 빈 모형으로 시작하거나 초기 모형 또는 모든 모형에 포함하도록 지정한 항을 포함합니다. 그런 다음 Minitab은 각 단계에 대한 항을 추가하거나 제거합니다. 초기 모형에 포함하거나 모든 모형에 사용할 항을 지정할 수 있습니다. 모형에 없는 모든 변수에 지정된 입력할 변수에 대한 알파 값보다 큰 p-값이 있고 모형의 모든 변수에 지정된 제거할 변수에 대한 알파 값보다 적거나 동일한 p-값이 있는 경우 Minitab이 중지됩니다.
  • 전진 선택: 이 방법은 빈 모형으로 시작하거나 초기 모형 또는 모든 모형에 포함하도록 지정한 항을 포함합니다. 그런 다음 Minitab은 각 단계에 대해 가장 중요한 항을 추가합니다. 모형에 없는 모든 변수에 지정된 입력할 변수에 대한 알파 값보다 큰 p-값이 있으면 Minitab이 중지됩니다.
  • 후진 제거: 이 방법은 모형의 모든 잠재 항으로 시작하고 각 단계에 대한 가장 중요한 항을 제거합니다. 모형의 모든 변수에 지정된 값보다 적거나 동일한 p-값이 있으면 Minitab이 중지됩니다.
  • 정보 기준 전진 선택법: 전진 정보 기준 절차는 각 단계에서 모형에 가장 낮은 p-값의 항을 추가합니다. 분석에 대한 설정으로 비계층적 항을 고려할 수 있지만 각 모형이 계층적이어야 하는 경우 추가 항이 1단계로 모형을 입력할 수 있습니다. Minitab은 각 단계의 정보 기준을 계산합니다. 대부분의 경우 절차는 다음 조건 중 하나가 발생할 때까지 계속됩니다.
    • 이 절차는 8개 연속 단계 기준의 개선을 찾지 못합니다.
    • 이 절차는 전체 모형을 적합시킵니다.
    • 이 절차는 오차에 대해 1도의 자유도를 남기는 모형을 적합시킵니다.
    각 단계에서 계층적 모형이 필요하고 한 번에 한 항만 입력하도록 허용하는 절차에 대한 설정을 지정하면, 전체 모형을 적합시키거나 오차에 대한 자유도 1도를 남기는 모형을 적합시킬 때까지 절차가 계속됩니다. Minitab은 선택한 정보 기준의 최소값(AICc 또는 BIC)으로 모형에 대한 분석 결과를 표시합니다.
  • 검증을 사용한 전진 선택: 검증 절차를 사용한 전진 선택은 검증 방법에 따라 다릅니다. 검정 데이터 세트를 사용하는 경우 절차는 전진 선택과 유사합니다. 각 단계의 끝에서 Minitab은 검정 결정계수 통계를 계산합니다. 전진 선택 절차가 끝나면 결정계수 값이 가장 큰 모형이 최종 모형입니다.

    교차 검증을 사용하면 절차가 각 폴드에서 전진 선택을 반복합니다. 이 절차는 각 단계에서 모든 폴드를 평가하고 최상의 k-폴드 단계적 결정계수 값으로 단계를 식별합니다. 절차의 마지막 부분은 전체 데이터 세트에서 전진 선택을 수행하고 폴드의 선택에서 최상의 단계에서 중지하는 것입니다.

    두 가지 유형의 검증에 대해 절차는 전진 정보 기준 절차와 동일한 조건에서 중지됩니다.

참고

최종 모형에 포함된 항은 모형에 대한 계층 구조 제한에 따라 달라질 수 있습니다. 자세한 내용은 아래 계층 구조의 항목을 참조하십시오.

잠재 항

절차에서 평가하는 항의 집합을 표시합니다. 리스트에서 항 옆의 지시자(E 또는I)는 절차에서 항을 처리하는 방식을 나타냅니다. 선택하는 방법에 따라 이 리스트의 초기 설정이 결정됩니다. 아래의 두 단추를 사용하여 절차에서 항을 처리하는 방식을 수정할 수 있습니다. 이 단추를 사용하지 않으면 절차에서 항의 p-값을 기반으로 항을 모형에 추가하거나 모형에서 제거할 수 있습니다.
  • E = 모든 모형에 항 포함: 항의 p-값에 관계없이 항을 모든 모형에 포함하려면 항을 선택하고 이 단추를 클릭합니다. 이 조건을 제거하려면 해당 단추를 다시 클릭합니다.
  • I = 초기 모형에 항 포함: 항을 초기 모형에 포함하려면 항을 선택하고 이 단추를 클릭합니다. p-값이 너무 높으면 절차에서 이 항을 제거할 수 있습니다. 이 조건을 제거하려면 해당 단추를 다시 클릭합니다. 이 단추는 단계적 회귀 분석(방법)을 선택한 경우에만 사용할 수 있습니다.

입력할 변수에 대한 알파 및 제거

입력할 변수에 대한 알파
Minitab에서 모형에 항을 입력할 수 있는지 여부를 확인하기 위해 사용하는 알파 값을 입력합니다. 단계적 회귀 또는 전진 선택(방법)을 선택할 때 이 값을 설정할 수 있습니다.
제거할 변수에 대한 알파
Minitab에서 모형에서 항을 제거할 수 있는지 여부를 확인하기 위해 사용하는 알파 값을 입력합니다. 단계적 회귀 또는 후진 제거(방법)을 선택할 때 이 값을 설정할 수 있습니다.

기준

전진 선택에서 사용할 정보 기준을 선택합니다.

AICc와 BIC 모두 모형의 우도를 평가한 다음 모형에 항을 추가하는 데 대한 벌칙을 적용합니다. 벌칙은 모형을 표본데이터에 과다 적합하는 경향을 줄입니다. 이에 따라 일반적으로 더 잘 수행되는 모형이 생성됩니다.

일반 지침에 따라, 모수 수가 표본 크기에 비해 작은 경우 AICc보다 BIC가 각 모수의 추가에 대한 벌칙이 더 큽니다. 이러한 경우 BIC를 최소화하는 모형이 AICc를 최소화하는 모형보다 더 작은 경향이 있습니다.

선별 설계와 같은 몇 가지 일반적인 경우, 모수의 수가 일반적으로 표본 크기에 비해 큽니다. 이러한 경우 AICc를 최소화하는 모형이 BIC를 최소화하는 모형보다 더 작은 경향이 있습니다. 예를 들어, 13-런 확정 선별 설계의 경우 모수가 6개 이상인 모형의 집합 중에서 AICc를 최소화하는 모형이 BIC를 최소화하는 모형보다 더 작은 경향이 있습니다.

AICc 및 BIC에 대한 자세한 내용은 Burnham and Anderson.1

검증을 사용한 전진 선택에 대한 검증 지정

참고

검증 설정도 확인 하위 대화 상자에 있습니다. 설정을 변경하면 Minitab이 두 위치에서 자동으로 설정을 업데이트합니다.

검증을 사용한 전진 선택을 선택하면 모형을 검정할 검증 방법을 선택합니다. 일반적으로 표본이 작은 경우 K-폴드 교차 검증 방법이 적합합니다. 더 큰 표본을 사용하면 데이터를 학습 데이터 세트와 검정 데이터 세트로 나눌 수 있습니다.

K-접기 교차 검증

다음 단계에 따라 K-폴드 교차 검증을 사용합니다.

  1. 드롭다운 목록에서 K-접기 교차 검증을 선택합니다.
  2. 다음 중 하나를 선택하여 폴드를 임의로 할당할지 또는 ID 열을 사용하여 할당할지 지정합니다.
    • 각 접기의 행 랜덤 할당: Minitab이 각 폴드의 행을 임의로 선택하도록 하려면 이 옵션을 선택합니다. 폴드 수를 지정할 수 있습니다. 기본값 10은 대부분의 경우에 잘 작동합니다. K의 낮은 값을 사용하면 더 많은 치우침이 발생할 수 있습니다. 그러나 K 값이 클수록 더 많은 가변성이 나타날 수 있습니다. 난수 생성기의 기준값을 설정할 수도 있습니다.
    • ID 열별로 각 접기의 행 할당: 각 폴드에 포함할 행을 선택하려면 이 옵션을 선택합니다. ID 열에서 폴드를 식별하는 열을 입력합니다. ID 열에 같은 값이 있는 각 행은 동일한 폴드에 있습니다.

검정 집합을 사용한 검증

다음 단계를 완료하여 데이터를 학습 데이터 세트와 검정 데이터 세트로 나눕니다.

  1. 드롭다운 목록에서 검정 집합을 사용한 검증을 선택합니다.
  2. 다음 중 하나를 선택하여 행의 일부를 임의로 선택할지 또는 ID 열이 있는 행의 일부를 선택할지 지정합니다.
    • 행 부분을 검정 집합으로 랜덤 선택: 이 옵션을 선택하여 Minitab이 검정 데이터 세트를 임의로 선택하도록 합니다. 검정 데이터 세트에서 사용할 데이터의 양을 지정할 수 있습니다. 기본값 0.3은 대부분의 경우에 잘 작동합니다. 모형을 잘 평가하기 위해 검정 데이터 세트에 충분한 데이터를 포함하려고 합니다. 모형의 형식에 대해 잘 모르는 경우 더 큰 검정 데이터 세트는 더 강력한 검증을 제공합니다. 또한 학습 데이터 세트에 모형을 잘 추정할 수 있는 충분한 데이터를 원할 수도 있습니다. 일반적으로 예측 변수가 많은 모형에는 추정하기 위해 더 많은 학습 데이터가 필요합니다.
    • ID 열별로 교육/검정 분할 정의: 검정 데이터 세트에 포함할 행을 직접 선택하려면 이 옵션을 선택합니다. ID 열에서 검정 표본에 사용할 행을 나타내는 열을 입력합니다. ID 열에는 2개의 값만 포함되어야 합니다. 검정 집합 수준에서 검정 표본으로 사용할 수준을 선택합니다.

계층 구조

Minitab에서 단계적 분석 절차 중에 모형 계층구조를 적용하도록 할 방법을 결정할 수 있습니다. 모형 대화 상자에서 비계층적 모형을 지정하면 계층 구조 버튼을 사용할 수 없게 됩니다.

계층적 모형에서는 높은 차수의 항을 구성하는 모든 낮은 차수의 항이 모형에 표시됩니다. 예를 들어 교호작용 항 A*B*C가 포함된 모형은 A, B, C, A*B, A*C, B*C 항이 포함된 경우 계층적입니다.

모형은 비계층적일 수 있습니다. 차수가 낮은 항이 유의하지 않을 경우 주제 분야에서 포함할 것을 제안하지 않으면 일반적으로 해당 항을 제거할 수 있습니다. 너무 많은 항이 포함된 모형은 상대적으로 정확하지 않을 수 있으며, 새로운 관측값을 예측하는 능력을 저하시킬 수 있습니다.

다음 팁을 고려하십시오.
  • 계층적 모형을 먼저 적합화하십시오. 나중에 유의하지 않은 항을 제거할 수 있습니다.
  • 계량형 예측 변수를 표준화하는 경우 계층적 모형을 적합화하여 코드화되지 않은 (즉 자연) 단위로 방정식을 만드십시오.
  • 모형에 범주형 변수가 있는 경우 범주형 항만이라도 계층적이면 해석하는 것이 더 쉽습니다.
계층적 모형
단계적 절차에서 계층적 모형을 생성해야 하는지 여부를 선택합니다.
  • 각 단계에서 계층적 모형이 필요함: Minitab에서는 계층 구조를 유지하는 항만 추가하거나 제거할 수 있습니다.
  • 계층적 모형으로 만들기 위해 끝에 항 추가: 처음에 Minitab은 단계적 절차의 표준 규칙을 따릅니다. 최종 단계에서 Minitab은 p-값이 입력할 변수에 대한 알파 값보다 크더라도 계층적 모형을 생성하는 항을 추가합니다. 방법이(가) 정보 기준 전진 선택법일 때 이 옵션을 선택하면 Minitab에서 오류를 표시합니다. 단계의 모형 중에서 기준을 최소화하는 계층 모형을 얻으려면 각 단계에서 계층적 모형이 필요함을(를) 선택하십시오.
  • 계층적 모형이 필요하지 않음: 최종 모형이 비계층적일 수 있습니다. Minitab은 단계적 절차의 규칙만을 기반으로 항을 추가하고 제거합니다.
다음 항에 대한 계층 구조 필요
계층적 모형이 필요한 경우 계층적이어야 하는 유형의 항을 선택합니다.
  • 모든 항: 계량형 및/또는 범주형 변수가 포함된 항이 계층적이어야 합니다.
  • 범주형 예측 변수가 있는 항: 범주형 변수가 포함된 항만 계층적이어야 합니다.
각 단계에 입력할 수 있는 항 수
각 단계에서 계층 구조가 필요한 경우 Minitab이 계층 구조를 유지하기 위해 각 단계에서 추가할 수 있는 항의 수를 선택합니다.
  • 각 단계에서 최대 1개의 항을 입력할 수 있음: 해당 항을 하나 추가해도 계층 구조가 유지되는 경우에만 모형에 고차 항을 추가할 수 있습니다. 고차 항을 구성하는 모든 저차 항은 이미 모형에 포함되어 있어야 합니다.
  • 계층 구조를 유지하기 위해 추가 항을 입력할 수 있음: 비계층적인 모형이 생성되더라도 모형에 고차 항을 추가할 수 있습니다. 그러나 p-값이 입력할 변수에 대한 알파 값보다 크더라도 계층적 모형을 생성하기 위해 필요한 항도 추가됩니다.

모형 선택 상세정보 표 표시

단계적 절차에 대해 표시할 정보를 지정합니다.
  • 방법에 대한 상세정보: 단계적 절차의 유형을 표시하고 모형에 예측 변수를 입력하거나 제거하기 위한 알파 값을 표시합니다.
  • 각 단계에 대한 자세한 내용 포함: 단계적 절차의 각 단계에 대한 계수, p-값 및 모형 요약 통계량을 표시합니다.

R-제곱 대 단계 그래프 표시

검증을 사용한 전진 선택을 선택하면 전진 선택의 각 단계에 대해 학습 및 검증 R2 값의 플롯을 표시합니다. 일반적으로 그림을 사용하여 간단한 모형에 유사한 검증 값이 있는지 여부를 결정합니다.

1 Burnham, K. P., & Anderson, D. R. (2004). Multimodel inference: Understanding AIC and BIC in model selection을 참조하십시오. Sociological Methods & Research, 33(2), 261-304. doi:10.1177/0049124104268644