Random Forests® 분류에 대한 옵션 선택

예측 분석 모듈 > Random Forests® 분류 > 옵션
참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

트리를 키울 부트스트랩 표본 수
값을 입력하여 부트스트랩 표본 수와 분석에서 생성된 트리 수를 결정합니다. 3에서 3000 사이의 값을 입력합니다.
학습 데이터 크기보다 작은 부트스트랩 표본 크기 지정
부트스트랩 표본 크기를 설정하는 값을 입력하려면 선택합니다. 5보다 크거나 같은 값을 입력해야 합니다. 학습 데이터 크기보다 큰 크기를 입력하면 Minitab은 학습 데이터 크기와 동일한 표본 크기를 사용합니다.
노드 분할 예측 변수 수
각 노드 분할에 대해 고려해야 할 예측 변수 수를 지정합니다. 일반적으로 총 예측 변수 수의 제곱근을 고려할 때 분석이 잘 작동합니다. 그러나 일부 데이터 집합에는 분석이 각 노드에 대해 더 크거나 적은 수의 예측 변수를 고려할 때 모형 성능이 향상되는 예측 변수 간에 연결이 있습니다. 제곱근을 사용하고 모형을 본 후에는 모형의 성능을 향상시키기 위해 예측 변수 수를 변경할지 여부를 고려합니다.
  • 총 예측 변수 수의 제곱근: 노드 분할에 대한 총 예측 변수 수의 제곱근을 사용하려면 선택합니다.
  • 전체 예측 변수 수, 부트스트랩 포리스트 생성: 노드 분할에 대한 모든 예측 변수를 사용하려면 선택합니다. 이 옵션에서 만든 포리스트를 부트스트랩 포리스트라고 합니다.
  • 총 예측 변수 수의 K%, K =: 노드 분할에 대한 예측 변수의 백분율을 사용하려면 선택합니다.
난수 생성기의 기준값
난수 생성기의 기준값을 지정하여 하위 표본과 예측 변수의 하위 집합을 임의로 선택할 수 있습니다. 일반적으로 기준값을 변경할 필요가 없습니다. 기준값을 변경하여 결과가 임의 선택에 얼마나 민감한지 살펴보거나 반복 분석에 대해 동일한 임의 선택을 보장할 수 있습니다.
내부 노드를 분할하는 최소 사례 수
노드가 가질 수 있고 더 많은 노드로 분할될 수 있는 최소 사례 수를 입력합니다. 표본 크기가 2,000 이하일 때 기본값은 2이므로 다른 분할이 불가능할 때까지 모든 노드를 더 작은 노드로 분할할 수 있습니다. 표본 크기가 더 큰 경우, 기본값은 5입니다. 모형 성능이 부족한 경우 이 값을 변경하여 성능에 미치는 영향을 볼지 여부를 고려합니다.