카트® 회귀의 노드 분할 방법

회귀 트리는 학습 데이터 세트의 이항 재귀 분할에서 발생합니다. 학습 데이터 세트의 부모 노드는 노드의 데이터 값에 따라 다양한 방법으로 상호 배타적인 두 개의 자식 노드로 분할될 수 있습니다. 계량형 변수인 X 및 값 c의 경우 분할은 X ≤ c 값을 가진 모든 레코드를 왼쪽 노드로 보내고 나머지 레코드는 오른쪽 노드로 보냅니다.

CART는 항상 두 개의 인접 값 평균을 사용하여 c를 계산합니다. N개의 고유 값을 가진 계량형 변수는 상위 노드의 N-1 잠재적 분할을 생성합니다. 분석에서 최소 노드 크기가 1보다 클 때 실제 잠재 분할 수는 더 작습니다.

고유 값이 있는 범주형 변수 X의 경우 {c1, c2, c3, ..., ck}, 분할은 왼쪽 노드로 전송되는 수준의 부분 집합입니다. k 수준을 가진 범주형 변수는 최대 2k – 1-1 분할을 생성합니다.

트리 성장 단계 동안 잠재적 분할의 경우 개선 기준은 최소 제곱법(LS) 또는 최소 절대 편차(LAD)입니다. Minitab은 개선 값이 가장 높은 분할을 트리에 추가합니다. Minitab은 분석에 모형 검증 방법이 포함된 경우 학습 데이터에서 개선된 사항만 계산합니다. 다음 수식을 사용하여 각 기준에 대한 개선을 계산합니다.

최소 제곱법(LS)

설명

최소 절대 편차(LAD)

설명

표기법

용어설명
SSEsum of squared errors
i번째 record in the node
SAEsum of the absolute errors
median of the response for the node

대체 분할

최적의 분할을 식별한 후 Minitab은 다른 잠재적 분할 간에 대체 분할을 찾습니다. 대체 분할은 레코드가 왼쪽 및 오른쪽 노드로 이동하는 최적 분할과 유사합니다. 유사성의 척도는 연관성입니다.

1의 연결은 대체 분할이 최적 분할을 복제한다는 것을 나타냅니다. 0의 연결은 분할이 최적 분할에 더 많은 레코드가 있는 노드에 모든 레코드를 전송한다는 것을 나타냅니다. 양수 연결이 있는 분할은 잠재적인 대체 분할입니다. 대체 분할의 개선사항은 변수 중요도 계산에 있습니다.

새 데이터에 분할을 형성하는 예측 변수에 대한 결측값이 포함된 경우 Minitab은 트리에 나타나는 예측 변수 대신 누락되지 않은 최상의 대체 예측 변수를 사용합니다.

이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오