TreeNet^® 분류를 통한 모형 적합 및 주요 예측 변수 검색에 대한 방법 표

참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

방법 표에 대한 정의 및 해석 지침을 찾습니다.

이 항목의 내용

최적 트리 수 선택 기준
모형 검증
학습률
하위 표본 선택 방법
트리당 최대 단말 노드 또는 최대 트리 깊이
최소 단말 노드 크기

노드 분할에 대해 선택된 예측 변수 수
결측값 페널티
높은 수준 범주 페널티
가중치
사용된 행
사용되지 않는 행

최적 트리 수 선택 기준

Minitab은 최대 로그 우도(기본값), ROC 곡선 아래의 최대 영역 또는 최소 오분류 비율을 사용하여 최적의 트리 수를 선택합니다.

모형 검증

Minitab은 교차 검증 방법을 사용하거나 별도의 검정 세트를 사용하여 모형을 검증합니다. 교차 검증을 사용하면 각 폴드의 행을 지정하거나 임의 선택을 허용할 수 있습니다. 별도의 검정 세트를 사용하면 학습 및 검정 세트에 대한 행을 지정하거나 임의 선택을 허용할 수 있습니다.

학습률

낮은 학습률은 모형에 있는 각 새 트리의 가중치가 더 높은 학습률보다 적으며 때로는 모형에 대해 더 많은 트리를 생성합니다. 학습률이 낮은 모형은 학습 데이터 집합에 과다 적합될 확률이 낮습니다.

기본 학습률 = max[0.01, 0.1 * min(1.0, N/10000)입니다. 낮은 학습률을 사용하면 최적의 트리 수가 최대 트리 수보다 적도록 모형의 최대 트리 수를 늘릴 수 있습니다.

하위 표본 선택 방법

하위 표본 선택 방법은 해석이 각 트리를 빌드하는 데 사용하는 데이터를 보여줍니다. 과도 적합이 우려되는 경우 이 모수를 조정합니다. 분석이 이항 반응 변수의 각 등급에 대해 별도의 데이터를 지정하면 두 값을 모두 표시합니다. 각 반응 수준을 지정하는 옵션은 값 중 하나가 드물면 트리에 각 반응 값의 최소 금액을 포함하도록 합니다.

트리당 최대 단말 노드 또는 최대 트리 깊이

TreeNet^® 분류에서는 수많은 작은 CART® 트리를 강력한 모형으로 결합합니다. 이러한 작은 CART® 트리에 대해 단말 노드의 최대 수 또는 최대 트리 깊이를 지정할 수 있습니다.

트리당 최대 단말 노드: 단말 노드의 기본 최대 개수는 6입니다. 트리당 최대 단말 노드 수가 많을수록 교호작용을 감지하는 기능이 향상될 수 있지만 12 이상의 값은 모형에 큰 이점 없이 해석 속도를 느리게 만들 수 있습니다.
최대 트리 깊이: 기본 최대 트리 깊이는 4입니다. 초기 적합된 모형이 잘 작동하지 않는 경우, 더 큰 최대 트리 깊이가 모형을 개선하는지 여부를 보려면 5 또는 6과 같은 더 큰 최대 트리 깊이를 고려하십시오.

최소 단말 노드 크기

단말 노드에 대한 최소 사례 수를 나타냅니다. 예를 들어 최소 크기가 3이고 분할이 사례가 3개 미만인 노드를 만드는 경우 Minitab은 분할을 수행하지 않습니다.

노드 분할에 대해 선택된 예측 변수 수

이 행은 노드 분할이 각 노드의 모든 예측 변수 또는 예측 변수의 임의 하위 세트를 고려하는지 여부를 나타냅니다. 노드 분할이 임의의 하위 세트를 사용하는 경우 이 행은 고려해야 할 예측 변수 수에 대한 선택을 나타냅니다.

처음에 모든 예측 변수를 사용하는 경우 후속 모형에서 예측 변수의 하위 세트를 사용하여 모형의 성능을 비교할지 여부를 고려합니다.

결측값 페널티

기본적으로 분석에 결측 값 페널티가 없으며 이 행이 없습니다. 결측값 페널티는 결측값 비율에 따라 예측 변수에 불이익을 주게 됩니다. 페널티가 높은 변수는 노드의 분할 역할을 할 가능성이 적습니다.

높은 수준 범주 페널티

기본적으로 분석에 높은 수준의 범주 페널티가 없으며 이 행은 존재하지 않습니다. 높은 수준 범주 페널티는 각 노드의 노드 크기에 대한 범주 수준 수에 따라 변수에 불이익을 주게 됩니다. 따라서 수준이 많은 경쟁업체는 노드의 분할 역할을 할 가능성이 적습니다.

가중치

반응에 가중치를 주기 위해 사용되는 열을 나타냅니다.

사용된 행

모형을 적합하고 평가하는 분석의 반응 관측치 수입니다.

사용되지 않는 행

누락된 반응 관측치 수입니다. 여기에는 가중치 열에 결측값 또는 0도 포함됩니다.

TreeNet® 분류를 통한 모형 적합 및 주요 예측 변수 검색에 대한 방법 표

참고