결정계수 대 모형 선택 단계

단계적 절차로 검증을 사용한 전진 선택 을 사용하는 경우 Minitab은 학습 데이터 세트에 대한 결정계수 통계 그림과 모형 선택 절차의 각 단계에 대한 검정 결정계수 통계 또는 k-폴드 단계적 결정계수 통계를 제공합니다. 검정 결정계수 통계 또는 k-폴드 단계적 검정계수 통계의 표시는 검정 데이터 세트를 사용하는지 또는 k-폴드 교차 검증을 사용하는지에 따라 달라집니다.

해석

그림을 사용하여 각 단계에서 서로 다른 결정계수 통계의 값을 비교합니다. 일반적으로 결정계수 통계가 모두 큰 경우 모형이 잘 수행됩니다. Minitab은 검정 검정계수 통계 또는 k-폴드 단계적 검정계수 통계를 최대화하는 단계의 모형 회귀 통계를 표시합니다. 그림은 더 간단한 모형이 좋은 후보가 될 수 있을 만큼 충분히 잘 적합하는지 여부를 보여줍니다.

모형이 과도 적합인 경우 항이 모형에 들어옴에 따라 검정 결정계수 통계 또는 k-폴드 단계적 검정계수 통계가 감소하기 시작합니다. 이 감소는 모든 데이터에 대한 해당 교육 결정계수 통계 또는 결정계수 통계가 계속 증가하는 동안 발생합니다. 과도 적합 모형은 모집단에서 중요하지 않은 효과에 대한 항을 추가할 때 발생합니다. 과도 적합 모형은 모집단에 대한 예측을 만드는 데 유용하지 않을 수 있습니다. 모형이 과도 적합인 경우 이전 단계의 모형을 고려할 수 있습니다.

다음 그림은 검정 결정계수를 예로 들 수 있습니다. 처음에 결정계수 통계는 모두 70%에 가깝습니다. 처음 몇 단계의 경우 항이 모형에 들어오면 결정계수 통계가 모두 증가하는 경향이 있습니다. 6단계에서 검정 결정계수 통계는 약 88%입니다. 검정 결정계수 통계의 최대값은 14단계에 있으며 값이 90%에 가깝습니다. 적합치의 개선이 모형에 더 많은 항을 추가하는 것에서 추가 복잡성을 정당화하는지 여부를 고려할 수 있습니다.

14단계 후 결정계수가 계속 증가하지만 검정 결정계수는 증가하지 않습니다. 14단계 이후 검정 결정계수가 감소하면 모형이 과도 적합임을 나타냅니다.