최고의 모형 검색(이항 반응) 개요

참고

이 명령은 에서 사용할 수 있습니다 예측 분석 모듈. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

일반적으로 특정 데이터 집합에 가장 적합한 모델을 만드는 모델을 결정하는 가장 쉬운 방법은 모든 모델을 빌드하고 성능을 비교하는 것입니다. 최고의 모형 검색(이항 반응) 4가지 일반적인 유형의 모델의 성능을 비교하는 데 사용하십시오. 이항 로지스틱 모형 적합, 모형 적합TreeNet® 분류용 , 그리고 Random Forests® 분류CART® 분류. 모든 4 개의 분석은 많은 범주형 및 연속 예측 변수로 바이너리 응답을 모델링합니다. 예를 들어, 시장 연구원은 을 사용하여 특정 이니셔티브에 대한 반응률이 높은 고객을 식별하고 이러한 반응률을 예측할 수 있습니다. 연구원은 다양한 유형의 모델의 성능을 비교하여 가장 정확한 예측을 얻는 방법을 결정합니다.

4가지 모델 유형 중 2가지 이상의 일반 유형유형인 이진 물류 회귀 및 트리 기반 모델입니다. 이항 로지스틱 모형 적합 는 이진 로지스틱 회귀 모델을 만듭니다. 다른 3개의 명령은 트리 기반 모델을 만듭니다. 2가지 일반 형식의 모델 피팅 방법은 매우 다르지만 서로 보완합니다. 이진 로지스틱 회귀 모델은 이진 응답의 이벤트 확률이 예측변수의 파라메트릭 함수라고 가정합니다. 이 모델은 최대 가능성 기준을 사용하여 데이터 집합의 매개 변수를 추정합니다. 파라메트릭 함수가 응답의 이벤트 확률과 예측변수 간의 관계를 적절히 나타내는 경우 모델은 이벤트 확률을 잘 예측할 수 있습니다. 그런 다음 표현식은 새 관측값에 대한 응답 수준을 올바르게 예측할 수 있는 좋은 기회가 있습니다. 이진 로지스틱 회귀 모델은 예측변수에 대한 최적의 설정의 식별을 단순화합니다. 또한 유효 핏은 장착된 매개 변수 및 표준 오류가 예측된 이벤트 확률에 대한 신뢰 간격의 추정과 같은 통계 적 추론에 유용함을 의미합니다.

경우에 따라 이진 로지스틱 회귀 모델은 데이터 집합에 잘 맞지 않거나 데이터의 특성이 이진 로지스틱 회귀 모델의 생성을 방지합니다. 다음은 이진 로지스틱 회귀 모델에 적합하지 않은 일반적인 경우입니다.
  1. 이진 응답의 이벤트 확률과 예측변수 간의 관계는 파라메트릭 함수를 따르지 않습니다.
  2. 특정 데이터 집합의 경우 최대 가능성 추정 알고리즘이 고유한 매개 변수 추정치로 수렴되지 않습니다.
  3. 예측 변수 수가 클 때 데이터에 는 이벤트 확률 표현식의 매개 변수를 추정할 수 있는 관측수가 충분하지 않습니다.
  4. 예측 변수는 임의변수입니다.
  5. 예측 변수에는 누락된 값이 많이 포함되어 있습니다.

이러한 경우 트리 기반 모델은 고려해야 할 좋은 대체 모델입니다.

트리 기반 모델 중 CART는 단일 결정 트리를 사용합니다. 단일 결정 트리는 전체 데이터 집합에서 첫 번째 상위 노드로 시작합니다. 그런 다음 트리는 노드 분할 기준을 사용하여 데이터를 2개의 동질성 자식 노드로 분할합니다. 이 단계는 모든 분할되지 않은 노드가 터미널 노드로 지정되는 기준을 충족할 때까지 반복적으로 반복됩니다. 그 후 별도의 테스트 세트로 교차 유효성 검사 또는 유효성 검사를 사용하여 트리를 트리밍하여 CART 모델인 최적의 트리를 얻습니다. 단일 의사 결정 트리는 이해하기 쉽고 다양한 특성을 가진 데이터 집합에 맞출 수 있습니다.

단일 결정 트리는 다른 2개의 트리 기반 메서드보다 덜 강력하고 덜 강력할 수 있습니다. 예를 들어 데이터 집합의 예측 변수 값이 조금 변경되면 매우 다른 CART 모델이 발생할 수 있습니다. TreeNet® 및 Random Forests® 메서드는 개별 트리 집합을 사용하여 단일 의사 결정 트리의 모델보다 더 강력하고 정확한 모델을 만듭니다.

각 모델 유형에 대한 자세한 내용은 다음 링크를 사용합니다.