단계적 회귀 분석 및 최량 부분 집합 회귀 분석 사용

단계적 회귀 분석의 정의

단계적 회귀 분석은 예측 변수의 유용한 부분 집합을 식별하기 위해 모형 구축의 탐색 단계에서 사용되는 자동화된 도구입니다. 공정에서는 체계적으로 각 단계 중에 가장 유의한 변수를 추가하거나 가장 유의하지 않은 변수를 제거합니다.

예를 들어, 주택 공급 시장 컨설팅 회사가 미래의 판매 가격을 예측하기 위해 작년의 주택 판매에 대한 데이터를 수집합니다. 100개보다 많은 예측 변수를 사용하여 모형을 찾는 것은 시간이 많이 걸리는 작업일 수 있습니다. Minitab의 단계적 회귀 분석 기능은 고려할 모형의 순서를 자동으로 식별합니다. AICc, BIC, 검정 R2, R2, 수정 R2, 예측 R2, S 및 Mallows의 Cp와 같은 통계는 모델을 비교하는 데 도움이 됩니다. Minitab에서는 사용되는 단계적 절차에 따라 가장 적합한 모형에 대한 전체 결과를 표시합니다.

Minitab의 다음 분석은 하나의 출력 집합에서 여러 잠재적 모형에 대한 모형 요약 통계를 평가할 수 있도록 자동으로 단계적 선택을 수행할 수 있습니다.
  • 예측 분석 모듈 > 선형 회귀
  • 통계분석 > 회귀 분석 > 회귀 분석 > 적합 회귀 모형
  • 예측 분석 모듈 > 이항 로지스틱 회귀 분석
  • 통계분석 > 회귀 분석 > 이항 로지스틱 회귀 분석 > 이항 로지스틱 모형 적합
  • 통계분석 > 회귀 분석 > 포아송 회귀 분석 > 포아송 모형 적합
  • 통계분석 > 분산 분석 > 일반 선형 모형 > 일반 선형 모형 적합
  • 통계분석 > 실험계획법 > 선별 설계 > 선별 설계 분석
  • 통계분석 > 실험계획법 > 선별 설계 > 이항 반응 분석
  • 통계분석 > 실험계획법 > 요인 설계 > 요인 설계 분석
  • 통계분석 > 실험계획법 > 요인 설계 > 이항 반응 분석
  • 통계분석 > 실험계획법 > 반응 표면 설계 > 반응 표면 설계 분석
  • 통계분석 > 실험계획법 > 반응 표면 설계 > 이항 반응 분석

단계적 회귀 분석의 문제

최량 부분 집합 회귀 분석 및 단계적 회귀 분석과 같은 변수 선택 절차를 사용할 때는 주의를 기울여야 합니다. 한 가지 문제는 이러한 절차에서 분석가가 데이터에 대해 가질 수 있는 특별한 지식을 고려할 수 없다는 것입니다. 이 프로시저는 예측 변수의 실제 중요도를 고려할 수 없습니다.

프로시저가 특수 지식을 고려할 수 없는 것과 관련된 문제는 두 예측 변수가 높은 상관 관계가 있는 경우 프로시저에서 두 예측 변수 중 하나만 선택할 수 있다는 것입니다. 예를 들어, 프로시저는 저렴하고 측정하기 쉬운 예측 변수를 제거하고, 측정하기 어렵고 비용이 많이 드는 상관 예측 변수를 선택할 수 있습니다. 분석가는 프로시저에서 고려할 수 없는 기준에 대한 판단을 내리기 위해 데이터에 대한 지식을 사용해야 합니다.

단계적 절차의 또 다른 문제점은 서로 다른 모델이 서로 다른 기준을 최적화할 수 있다는 것입니다. 예를 들어, 조정된 R2 값이 가장 높은 모형이 반드시 검정 R2 값이 가장 높은 모형일 필요는 없습니다. 분석가는 최종 모델을 선택하기 위해 다양한 기준을 고려해야 합니다.

또한 데이터에 모형을 적합시킬 때 적합도는 다음의 기본적인 두 가지 사항으로부터 얻습니다.
  • 데이터의 기본적인 구조(같은 방식으로 수집된 다른 데이터 집합에 적용되는 구조).
  • 분석하는 데이터 집합의 특성입니다.

모형이 하나의 특정 데이터 집합만 적합하지 않도록 새 데이터 집합에 대한 선택 절차에서 발견된 모형을 확인해야 합니다. 처음에 얻은 데이터 집합을 랜덤하게 두 부분으로 나눈 다음 한 부분을 사용하여 모형을 선택하고 다른 부분에서는 적합성을 확인할 수도 있습니다. 이 절차를 사용하면 선택한 모형이 같은 방식으로 수집된 다른 데이터 집합에도 적용됩니다. 자동 검증을 사용하는 단계적 절차에 대한 섹션으로 이동하여 데이터를 자동으로 분할하고 검증 통계량을 계산할 수 있는 명령에 대해 알아보십시오.

단계적 절차

Minitab에서 자동 단계적 절차를 포함하는 모든 분석에는 다음 절차가 포함됩니다. 다음 방법을 사용하면 모델을 작성하는 데 사용하는 데이터에 대한 모델 요약 통계와 관련하여 많은 수의 서로 다른 모델을 빠르게 평가할 수 있습니다.

  • 표준 단계적 회귀 분석은 각 단계에 대한 예측 변수를 추가하거나 제거합니다. 모형에 없는 모든 변수가 지정된 입력할 변수에 대한 알파 값보다 큰 p-값을 갖고 있는 경우 그리고 모형의 모든 변수가 지정된 제거할 변수에 대한 알파 값보다 작거나 같은 p-값을 갖고 있는 경우 Minitab이 중지됩니다.
  • 전진 정보 기준 절차는 각 단계에서 모형에 가장 낮은 p-값의 항을 추가합니다. 분석에 대한 설정으로 비계층적 항을 고려할 수 있지만 각 모형이 계층적이어야 하는 경우 추가 항이 1단계로 모형을 입력할 수 있습니다. Minitab은 각 단계의 정보 기준을 계산합니다. 대부분의 경우 절차는 다음 조건 중 하나가 발생할 때까지 계속됩니다.
    • 절차는 8개의 연속 단계에 대한 새로운 최소 기준을 찾지 못합니다.
    • 이 절차는 전체 모형을 적합합니다.
    • 이 절차는 오차에 대해 1도의 자유도를 남기는 모형을 적합합니다.
    각 단계에서 계층적 모형이 필요하고 한 번에 한 항만 입력하도록 허용하는 절차에 대한 설정을 지정하면, 전체 모형을 적합하거나 오차에 대한 자유도 1도를 남기는 모형을 적합할 때까지 절차가 계속됩니다. Minitab은 선택한 정보 기준의 최소값(AICc 또는 BIC)으로 모형에 대한 분석 결과를 표시합니다.
  • 전진 선택은 빈 모형 또는 사용자가 지정한 항이 있는 모형으로 시작합니다. 그런 다음 Minitab에서는 각 단계에 대해 가장 유의한 항을 추가합니다. 모형에 없는 모든 변수가 지정된 입력할 변수에 대한 알파 값보다 큰 p-값을 갖고 있는 경우 Minitab이 중지됩니다.
  • 후진 제거가 모형에 있는 모든 예측 변수로 시작되고 Minitab은 각 단계에 대한 가장 유의하지 않은 변수를 제거합니다. 모형에 없는 모든 변수가 지정된 제거할 변수에 대한 알파 값보다 작거나 같은 p-값을 갖고 있는 경우 Minitab이 중지됩니다.

자동 검증을 통한 단계적 회귀 분석 절차

다음 명령의 경우 Minitab의 분석에는 자동 검증 기법과 단계적 절차가 포함될 수 있습니다. 자동 검증은 분석가가 단계적 절차 후에 직접 모델 검증을 수행하는 데 시간을 절약합니다. 다음 명령은 단계별 절차 중에 데이터를 학습 데이터 세트와 테스트 데이터 세트로 나눌 수 있습니다.

Minitab에서 검정 데이터 세트로 자동으로 수행할 수 있는 단계적 절차를 검정 데이터 세트를 사용한 검증을 통한 순방향 선택이라고 합니다. 이 절차에서는 초기 모형이 비어 있거나 사용자가 특별히 선택한 모형 항을 포함합니다. 그런 다음 Minitab에서는 각 단계에서 p-값이 가장 작은 다음 잠재적 항을 추가합니다. Minitab에서는 각 단계에서 모형에 대한 검정 R2 를 검정 데이터 집합의 모형에 대한 R2 값으로 계산합니다. Minitab에서 제공하는 모형 결과는 검정 R2 값의 최대값을 가진 모형에 대한 것입니다.

의 경우 적합 회귀 모형k-폴드 교차 검증을 사용한 순방향 선택이라는 단계적 선택을 수행할 두 번째 검증 기술을 선택할 수 있습니다. k-폴드 교차 검증에서 Minitab은 데이터 세트를 k개의 부분 집합으로 나눕니다. 이러한 부분 집합을 접기라고 합니다. 대부분의 경우 유효성 검사는 10개의 접기를 사용하지만 다른 숫자도 가능합니다. 접기는 가능한 한 동일한 수의 관측치를 갖습니다. Minitab은 순방향 선택을 k번 수행합니다. 각 전방 선택에 대해 k–1 접기는 학습 데이터 세트이고 마지막 접기는 테스트 데이터 세트입니다. 다른 순방향 선택 절차와 마찬가지로 초기 모형이 비어 있거나 사용자가 특별히 선택한 모형 항을 포함합니다. 그런 다음 Minitab에서는 각 단계에서 p-값이 가장 작은 다음 잠재적 항을 추가합니다. 각 단계에 대해 Minitab에서는 서로 다른 단계적 선택 절차의 정보를 결합하여 k-폴드 단계적 R2 값을 계산합니다.

계층 구조

계층적 모형은 모형의 각 항에 대해 해당 항에 포함된 보다 낮은 차수의 모든 항도 모형 내에 있어야 하는 항입니다. 예를 들어, 네 개의 요인 A, B, C, and D. A * B * C 항이 모형에 있는 경우 항 A, B, C, A*B, A*C 및 B*C도 모형에 있어야 하지만 D가 있는 항이 모형에 있을 필요는 없습니다.

단계에서 모델에 들어가거나 나가는 항은 계층의 사양에 따라 다릅니다. 기본적으로 Minitab Statistical Software는 각 단계에서 계층적 모형이 필요하고, 모든 항에 대해 계층 구조가 필요하며, 각 단계에서 하나의 항만 모형에 입력할 수 있습니다. 이러한 설정은 Minitab이 각 단계에서 고려하는 항을 제한합니다. 예를 들어, 이원 교호작용은 교호작용의 하위 항이 모두 이미 모형에 있지 않으면 모형에 들어갈 수 없습니다. 단계적 방법을 선택할 때 클릭하여 계층 구조 이러한 설정을 조정할 수 있습니다.

최량 부분 집합 회귀 분석의 정의

최량 부분 집합 회귀 분석은 예측 변수의 유용한 부분 집합을 식별하기 위해 모델 구축의 탐색 단계에서 사용되는 자동화된 도구입니다. 이 절차에서는 각 크기에 대해 요청하는 모델 수(예측 변수가 1개인 모델, 예측 변수가 2개인 모델 등)에 대한 모델 요약 결과를 표시합니다. 표시되는 모델은 해당 크기의 가능한 모델 중에서 R2 의 가장 높은 값을 갖습니다. Minitab에서 최량 부분 집합 회귀 분석을 사용하려면 을 선택합니다 통계분석 > 회귀 분석 > 회귀 분석 > 최량 부분 집합.

자동 선택 절차인 최량 부분 집합 회귀 분석은 단계적 회귀 분석과 많은 문제를 공유합니다. 이 절차에서는 분석가가 보유한 전문 지식을 사용할 수 없으며 다른 기준이 동일한 모델을 식별한다는 보장도 없습니다. 예측 변수 간의 상관 계수는 최상의 모형을 식별하는 것을 더 어렵게 만들 수 있습니다. 새 데이터로 모델을 검증하면 모델 성능에 대한 신뢰도가 높아집니다.

최량 부분 집합 회귀 분석 및 단계적 회귀 분석의 비교

최량 부분 집합은 Minitab Statistical Software의 분석입니다. 단계적 회귀 분석은 여러 분석에서 선택할 수 있는 옵션입니다. 이 두 가지 자동화된 모형 선택 기법은 서로 다른 여러 모형의 적합도에 대한 정보를 제공합니다. 다양한 모델에서 추가 탐색이 필요한 모델을 식별할 수 있습니다.

Minitab에서 두 기법 간의 차이점은 한 기법을 다른 기법보다 우선시할지 또는 두 기법을 모두 사용할지 결정하는 데 도움이 될 수 있습니다. 다음은 고려해야 할 몇 가지 일반적인 사항입니다.
특성 최량 부분 집합 회귀 분석 단계적 회귀 분석
고려되는 모델 예측 변수에 대해 가능한 모든 모형. 항의 통계적 유의성에 의해 선택된 일련의 모델입니다.
고려해야 할 예측 변수의 수 최대 31개의 무료 예측 변수와 모든 모델에 필요한 예측 변수. 설정된 제한이 없습니다.
예측 변수의 종류 워크시트의 숫자 열입니다. 텍스트 또는 숫자 열과 상호 작용 용어 및 기타 고차원 용어.
반응 변수의 유형 숫자 열 1개입니다. Minitab의 다양한 분석을 통해 다양한 유형의 반응 변수를 분석할 수 있습니다. 단계적 회귀 분석의 경우 계량형 반응 변수, 이항 반응 변수 또는 푸아송 반응 변수에 대한 분석을 선택할 수 있습니다.
결과 결과에는 데이터의 적합도를 탐색하는 모형 요약 통계량이 포함됩니다. 잔차 그림과 같은 전체 회귀 분석 결과를 보려면 와 같은 적합 회귀 모형분석에서 선택한 모형을 탐색하십시오. 분석은 선택한 기준에 따라 최적 모형에 대한 전체 회귀 분석 결과를 표시합니다. 절차의 각 단계에 대한 모델 요약 통계를 보도록 선택할 수도 있습니다.