CART® 회귀 분석의 노드 분할 방법

회귀 트리는 학습 데이터 세트의 이항 재귀 분할에서 발생합니다. 학습 데이터 세트의 부모 노드는 노드의 데이터 값에 따라 다양한 방법으로 상호 배타적인 두 개의 자식 노드로 분할될 수 있습니다. 계량형 변수인 X 및 값 c의 경우 분할은 X ≤ c 값을 가진 모든 레코드를 왼쪽 노드로 보내고 나머지 레코드는 오른쪽 노드로 보냅니다.

CART는 항상 두 개의 인접 값 평균을 사용하여 c를 계산합니다. N개의 고유 값을 가진 계량형 변수는 상위 노드의 N-1 잠재적 분할을 생성합니다. 분석에서 최소 노드 크기가 1보다 클 때 실제 잠재 분할 수는 더 작습니다.

고유 값이 있는 범주형 변수 X의 경우 {c1, c2, c3, ..., ck}, 분할은 왼쪽 노드로 전송되는 수준의 부분 집합입니다. k 수준을 가진 범주형 변수는 최대 2k – 1-1 분할을 생성합니다.

트리 성장 단계 동안 잠재적 분할의 경우 개선 기준은 최소 제곱법(LS) 또는 최소 절대 편차(LAD)입니다. Minitab은 개선 값이 가장 높은 분할을 트리에 추가합니다. 두 예측 변수의 개선이 동일하면 알고리즘을 계속하려면 선택이 필요합니다. 선택 영역은 워크시트의 예측 변수 위치, 예측 변수 유형 및 범주형 예측변수의 클래스 수를 포함하는 결정적 타이 브레이킹 스키마를 사용합니다.

Minitab은 분석에 모형 검증 방법이 포함된 경우 학습 데이터에서 개선된 사항만 계산합니다. 다음 수식을 사용하여 각 기준에 대한 개선을 계산합니다.

최소 제곱법(LS)

설명

최소 절대 편차(LAD)

설명

표기법

용어설명
SSE제곱 오류합계
노드의i번째 레코드
SAE절대 오차합계
노드에 대한 응답의 중앙값

대체 분할

최적의 분할을 식별한 후 Minitab은 다른 잠재적 분할 간에 대체 분할을 찾습니다. 대체 분할은 레코드가 왼쪽 및 오른쪽 노드로 이동하는 최적 분할과 유사합니다. 유사성의 척도는 연관성입니다.

1의 연결은 대체 분할이 최적 분할을 복제한다는 것을 나타냅니다. 0의 연결은 분할이 최적 분할에 더 많은 레코드가 있는 노드에 모든 레코드를 전송한다는 것을 나타냅니다. 양수 연결이 있는 분할은 잠재적인 대체 분할입니다. 대체 분할의 개선사항은 변수 중요도 계산에 있습니다.

새 데이터에 분할을 형성하는 예측 변수에 대한 결측값이 포함된 경우 Minitab은 트리에 나타나는 예측 변수 대신 누락되지 않은 최상의 대체 예측 변수를 사용합니다.