최량 부분 집합 회귀 분석 및 단계적 회귀 분석 사용

단계적 회귀 분석의 정의

단계적 회귀 분석은 예측 변수의 유용한 부분 집합을 식별하기 위해 모형 구축의 탐색 단계에서 사용되는 자동화된 도구입니다. 공정에서는 체계적으로 각 단계 중에 가장 유의한 변수를 추가하거나 가장 유의하지 않은 변수를 제거합니다.

예를 들어, 주택 공급 시장 컨설팅 회사가 미래의 판매 가격을 예측하기 위해 작년의 주택 판매에 대한 데이터를 수집합니다. 100개보다 많은 예측 변수를 사용하여 모형을 찾는 것은 시간이 많이 걸리는 작업일 수 있습니다. Minitab의 단계적 회귀 분석 기능은 고려할 모형의 순서를 자동으로 식별합니다. AICc, BIC, R2, 수정 R2, 예측 R2, S, Mallows의 Cp와 같은 통계량은 모형을 비교하는 데 도움이 됩니다. Minitab에서는 사용되는 단계적 절차에 따라 가장 적합한 모형에 대한 전체 결과를 표시합니다.

Minitab의 다음 분석은 단계별 선택을 자동으로 수행하여 한 가지 출력 집합에서 많은 잠재적 모델에 대한 모델 요약 통계를 평가할 수 있습니다.
  • 통계분석 > 회귀 분석 > 회귀 분석 > 적합 회귀 모형
  • 통계분석 > 회귀 분석 > 이항 로지스틱 회귀 분석 > 이항 로지스틱 모형 적합
  • 통계분석 > 회귀 분석 > 포아송 회귀 분석 > 포아송 모형 적합
  • 통계분석 > 분산 분석 > 일반 선형 모형 > 일반 선형 모형 적합
  • 통계분석 > 실험계획법 > 선별 설계 > 선별 설계 분석
  • 통계분석 > 실험계획법 > 선별 설계 > 이항 반응 분석
  • 통계분석 > 실험계획법 > 요인 설계 > 요인 설계 분석
  • 통계분석 > 실험계획법 > 요인 설계 > 이항 반응 분석
  • 통계분석 > 실험계획법 > 반응 표면 설계 > 반응 표면 설계 분석
  • 통계분석 > 실험계획법 > 반응 표면 설계 > 이항 반응 분석

단계적 회귀 분석의 문제

최량 부분 집합 회귀 분석 및 단계적 회귀 분석과 같은 변수 선택 절차를 사용할 때는 주의를 기울여야 합니다. 자동 절차에서는 분석가가 해당 데이터에 대해 가질 수 있는 특별한 정보를 고려할 수 없습니다. 이 프로시저는 예측 변수의 실질적인 중요성을 고려할 수 없습니다.

프로시저의 특수 지식 고려 불능과 관련된 문제는 두 예측 변수의 상관 관계가 높은 경우 두 예측 변수 중 하나만 선택할 수 있다는 것입니다. 예를 들어, 프로시저는 측정하기 어렵고 비용이 많이 드는 상관 예측 변수를 위해 저렴하고 측정하기 쉬운 예측 변수를 제거할 수 있습니다. 분석가는 데이터에 대한 지식을 사용하여 프로시저가 고려할 수 없는 기준에 대한 판단을 내려야 합니다.

단계적 절차의 또 다른 문제는 다른 모델이 다른 기준을 최적화할 수 있다는 것입니다. 예를 들어 조정된 R2 값이 가장 높은 모델은 테스트 R2 값이 가장 높은 모델이 아닐 수 있습니다. 분석가는 최종 모델을 선택하기 위해 다양한 기준을 고려해야 합니다.

또한 데이터에 모형을 적합시킬 때 적합도는 다음의 기본적인 두 가지 사항으로부터 얻습니다.
  • 데이터의 기본적인 구조(같은 방식으로 수집된 다른 데이터 집합에 적용되는 구조)
  • 분석하는 데이터 집합의 특수성입니다.

모형이 하나의 특정 데이터 집합만 적합하지 않도록 새 데이터 집합에 대한 선택 절차에서 발견된 모형을 확인해야 합니다. 처음에 얻은 데이터 집합을 랜덤하게 두 부분으로 나눈 다음 한 부분을 사용하여 모형을 선택하고 다른 부분에서는 적합성을 확인할 수도 있습니다. 이 절차를 사용하면 선택한 모형이 같은 방식으로 수집된 다른 데이터 집합에도 적용됩니다. 자동 유효성 검사를 사용하여 단계별 절차 섹션으로 이동하여 데이터를 자동으로 분할하고 유효성 검사 통계를 계산할 수 있는 명령에 대해 알아봅니다.

단계별 절차

Minitab의 자동 단계별 절차를 포함하는 모든 분석에는 다음 절차가 포함됩니다. 다음 방법을 사용하면 모델을 빌드하는 데 사용하는 데이터에 대한 모델 요약 통계측면에서 많은 수의 다른 모델을 신속하게 평가할 수 있습니다.

  • 표준 단계별 회귀는 각 단계에 대한 예측 변수를 추가하거나 제거합니다. 모형에 없는 모든 변수가 지정된 입력할 변수에 대한 알파 값보다 큰 p-값을 갖고 있는 경우 그리고 모형의 모든 변수가 지정된 제거할 변수에 대한 알파 값보다 작거나 같은 p-값을 갖고 있는 경우 Minitab이 중지됩니다.
  • 전진 정보 기준 절차에서는 각 단계에서 p-값이 가장 낮은 항을 모형에 추가합니다. 분석에 대한 설정으로 비계층적 항을 고려할 수 있지만 각 모형이 계층적이어야 하는 경우 추가 항이 1단계로 모형을 입력할 수 있습니다. Minitab은 각 단계의 정보 기준을 계산합니다. 대부분의 경우 절차는 다음 조건 중 하나가 발생할 때까지 계속됩니다.
    • 절차는 8개의 연속 단계에 대한 새로운 최소 기준을 찾지 못합니다.
    • 이 절차는 전체 모형을 적합시킵니다.
    • 이 절차는 오차에 대해 1도의 자유도를 남기는 모형을 적합시킵니다.
    각 단계에서 계층적 모형이 필요하고 한 번에 한 항만 입력하도록 허용하는 절차에 대한 설정을 지정하면, 전체 모형을 적합시키거나 오차에 대한 자유도 1도를 남기는 모형을 적합시킬 때까지 절차가 계속됩니다. Minitab에서 AICc 또는 BIC 등 선택된 정보 기준의 값이 가장 작은 모형에 대한 분석 결과를 표시합니다.
  • 전달 선택은 빈 모델 또는 지정한 용어가 있는 모델로 시작합니다. 그런 다음 Minitab이 각 단계에서 가장 유의한 항을 추가합니다. 모형에 없는 모든 변수가 지정된 입력할 변수에 대한 알파 값보다 큰 p-값을 갖고 있는 경우 Minitab이 중지됩니다.
  • 후진 제거가 모형에 있는 모든 예측 변수로 시작되고 Minitab은 각 단계에 대한 가장 유의하지 않은 변수를 제거합니다. 모형에 없는 모든 변수가 지정된 제거할 변수에 대한 알파 값보다 작거나 같은 p-값을 갖고 있는 경우 Minitab이 중지됩니다.

자동 유효성 검사를 통한 단계별 회귀 절차

다음 명령의 경우 Minitab의 분석에는 자동 유효성 검사 기술과 단계별 절차가 포함될 수 있습니다. 자동 유효성 검사는 단계별 프로시저 후에 스스로 모델 유효성 검사를 수행하는 분석가의 시간을 절약합니다. 다음 명령은 단계적 프로시저 중에 데이터를 학습 데이터 집합과 테스트 데이터 집합으로 나눌 수 있습니다.

Minitab이 테스트 데이터 집합으로 자동으로 수행할 수 있는 단계별 프로시저는 테스트 데이터 집합을 사용하여 유효성 검사를 사용하여 전달 선택이라고 합니다. 이 절차에서는 초기 모델이 비어 있거나 특별히 선택한 모델 용어를 포함합니다. 그런 다음 Minitab은 각 단계에서 p 값이 가장 작은 다음 잠재적 용어를 추가합니다. Minitab은 각 단계에서 모델에 대한 테스트 R2를 테스트 데이터 집합의 모델에 대한 R2 값으로 계산합니다. Minitab이 제공하는 모델 결과는 R2 테스트 값의 최대값을 가진 모델에 대한 결과입니다.

적합 회귀 모형경우 k-fold 교차 유효성 검사를 사용하여 정방향 선택이라는 단계별 선택으로 수행할 두 번째 유효성 검사 기술을 선택할 수 있습니다. k-fold 교차 유효성 검사에서 Minitab은 데이터 집합을 k 하위 집합으로 나눕니다. 이 부분 집합을 폴드라고 합니다. 대부분의 경우 유효성 검사는 10겹을 사용하지만 다른 숫자는 가능합니다. 접기는 가능한 한 동일한 수의 관측값에 가깝습니다. 미니탭은 앞으로 선택 k 시간을 수행합니다. 각 정방향 선택에서 k-1 배는 학습 데이터 집합이고 마지막 폴드는 테스트 데이터 집합입니다. 다른 정방향 선택 프로시저에서와 마찬가지로 초기 모델은 비어 있거나 특별히 선택한 모델 용어를 포함합니다. 그런 다음 Minitab은 각 단계에서 p 값이 가장 작은 다음 잠재적 용어를 추가합니다. 각 단계에 대해 Minitab은 서로 다른 단계별 선택 절차의 정보를 결합하여 k-fold 단계별 R2 값을 계산합니다.

계층 구조

계층적 모형은 모형의 각 항에 대해 해당 항에 포함된 보다 낮은 차수의 모든 항도 모형 내에 있어야 하는 항입니다. 예를 들어, 네 개의 요인 A, B, C, D가 포함된 모형이 있다고 가정합시다. 이 모형 내에 A * B * C 항이 있으면 A B C A * B A * C B * C도 모형 내에 있어야 합니다. 그러나 D가 포함된 항은 모형 내에 있지 않아도 됩니다.

모델을 단계별로 입력하거나 떠나는 용어는 계층 구조의 사양에 따라 다릅니다. 기본적으로 Minitab 통계 소프트웨어는 각 단계에서 계층 적 모델을 필요로하고, 모든 용어에 대한 계층 구조를 필요로하며, 각 단계에서 모델을 입력 하는 하나의 용어를 허용 합니다. 이러한 설정은 각 단계에서 Minitab이 고려하는 용어를 제한합니다. 예를 들어 양방향 상호 작용은 상호 작용의 하위 순서 용어가 모두 모델에 이미 있는 경우가 아니면 모델을 입력할 수 없습니다. 다음 설정을 다음 을 클릭하여 조정할 수 있습니다. 계층 구조 단계별 방법을 선택할 때

최량 부분 집합 회귀 분석의 정의

단계적 회귀 분석은 예측 변수의 유용한 부분 집합을 식별하기 위해 모형 구축의 탐색 단계에서 사용되는 자동화된 도구입니다. 이 프로시저는 각 크기에 대해 요청하는 모델 수( 하나의 예측 변수가 있는 모델, 두 개의 예측 변수가 있는 모델 등)에 대한 모델 요약 결과를 표시합니다. 표시되는 모델은 해당 크기의 가능한 모델 중에서 R2의 가장 높은 값을 갖습니다. Minitab에서 최상의 하위 집합 회귀를 사용하려면 을 선택합니다통계분석 > 회귀 분석 > 회귀 분석 > 최량 부분 집합.

자동 선택 절차로서 최상의 하위 집합 회귀는 단계별 회귀와 함께 많은 문제를 공유합니다. 이 프로시저는 분석가가 가지고 있는 특수 한 지식을 사용할 수 없으며 다른 기준이 동일한 모델을 식별한다는 보장도 없습니다. 예측 변수 간의 상관 관계는 최상의 모델을 식별하는 데 더 어려워질 수 있습니다. 새 데이터로 모델의 유효성 검사를 수행하면 모델의 성능에 대한 신뢰도가 높아진다.

최량 부분 집합 회귀 분석 및 단계적 회귀 분석의 비교

최고의 하위 집합은 미니탭 통계 소프트웨어의 분석입니다. 단계별 회귀는 여러 분석에서 옵션입니다. 이러한 자동화된 모델 선택 기술은 모두 여러 다른 모델의 적합성에 대한 정보를 제공합니다. 다른 모델에서 추가 탐색을 받을 자격이 있는 모든 모델을 식별할 수 있습니다.

Minitab의 기술 간의 차이점은 한 기술을 다른 기술을 사용할지 아니면 두 기술을 모두 사용할지 결정하는 데 도움이 될 수 있습니다. 다음은 고려해야 할 몇 가지 일반적인 사항입니다.
특성 최량 부분 집합 회귀 분석 단계적 회귀 분석
고려된 모델 예측 변수에 대한 모든 가능한 모델입니다. 용어의 통계적 유의에 의해 선택된 모델의 시퀀스입니다.
고려할 예측 변수 수 최대 31개의 무료 예측 변수와 모든 모델에 필요한 모든 예측 변수를 포함합니다. 설정된 제한이 없습니다.
예측 변수의 상태 워크시트의 열 숨기기 텍스트 또는 숫자 열과 상호 작용 용어 및 기타 고차 용어.
응답 변수 의 유형 숫자 열입니다. Minitab의 다양한 분석은 다양한 유형의 응답 변수를 분석할 수 있습니다. 단계별 회귀를 위해 연속 응답 변수, 이진 응답 변수 또는 푸아송 응답 변수에 대한 분석을 선택할 수 있습니다.
결과 결과에는 데이터의 적합성을 탐색하는 모델 요약 통계가 포함됩니다. 잔류 플롯과 같은 전체 회귀 결과를 보려면 와 같은 해석에서 선택한 모델을 탐색합니다적합 회귀 모형. 분석은 선택한 기준에 따라 최적의 모델에 대한 전체 회귀 결과를 표시합니다. 프로시저의 각 단계에 대한 모델 요약 통계를 보도록 선택할 수도 있습니다.