최량 부분 집합 회귀 분석에 대한 주요 결과 해석

최량 부분 집합 회귀 분석에서 Minitab은 R2 값이 가장 높은 모형을 예측 변수가 하나 포함된 모형 중에서 두 개 선택하고, 예측 변수가 두 개 포함된 모형 중에서 선택하고, 이런 식으로 계속합니다. 출력 표에 "X"로 표시된 열을 기반으로 각 모형에 포함되는 예측 변수를 결정할 수 있습니다.

어느 모형이 데이터에 최량 적합치를 제공하는지 확인하려면 적합도 통계량을 사용합니다. 최종 모형을 선택하기 전에 잔차 그림과 다른 진단 측도를 조사하여 모형이 분석의 가정을 충족하는지 확인해야 합니다.

R-제곱

R2 값이 클수록 모형이 데이터를 더 잘 적합시킵니다. R2은 항상 0%에서 100% 사이입니다.

모형에 예측 변수를 추가하면 R2은 항상 증가합니다. 예를 들어, 최량 예측 변수가 5개인 모형은 최량 예측 변수가 4개인 모형보다 항상 R2 값이 큽니다. 따라서 R2은 같은 크기의 모형을 비교할 때 가장 유용합니다.

R-제곱(수정)

예측 변수 수가 다른 여러 모형을 비교하려면 수정 R2을 사용합니다. 모형에 예측 변수를 추가하면 모형이 실제로 개선되지 않더라도 R2은 항상 증가합니다. 수정 R2 값은 모형의 예측 변수 수에 통합되어 올바른 모형을 선택하는 데 도움이 됩니다.

R-제곱(예측)

모형의 새 관측치에 대한 반응을 얼마나 잘 예측하는지 확인하려면 예측 R2을 사용합니다.모형의 예측 R2 값이 클수록 예측 능력이 더 좋습니다.

예측 R2이 R2보다 상당히 작으면 모형이 과다 적합하다는 것을 나타낼 수도 있습니다. 모집단에서 중요하지 않은 효과에 대한 항을 추가할 경우 과다 적합 모형이 발생할 수 있습니다. 모형이 표본 데이터에 따라 조정되므로, 모집단에 대해 예측 시 유용하지 않을 수도 있습니다.

예측 R2은 또한 모형 계산에 포함되지 않은 관측치를 사용하여 계산되므로, 모형을 비교할 때 수정 R2보다 유용할 수 있습니다.

Mallows의 Cp
Mallows의 Cp는 완전 모형의 정밀도와 치우침을, 최량의 예측 변수 부분 집합을 갖는 모형과 비교합니다. Mallows의 Cp 값이 예측 변수의 수에 상수를 더한 값에 가까우면, 모형이 비교적 정밀하며 치우침이 없는 추정치를 산출한다는 것을 나타냅니다.
S

S는 모형이 반응을 얼마나 잘 설명하는지 평가하기 위해 사용합니다. 상수가 없는 모형의 적합치를 비교하려면 R2 통계량 대신 S를 사용합니다.

S는 반응 변수 단위로 측정되며, 데이터 값이 적합치로부터 얼마나 떨어져 있는지 나타냅니다. S의 값이 낮을수록 모형이 반응을 더 잘 설명합니다. 그러나 낮은 S 값 자체는 모형이 모형 가정을 충족한다는 것을 나타내지 않습니다. 가정을 확인하려면 잔차 그림을 확인해야 합니다.

R2 값을 해석할 때 다음과 같은 점을 고려하십시오.
  • 작은 표본은 반응과 예측 변수 간 관계의 강도에 대한 정확한 추정치를 제공하지 않습니다. 예를 들어, 더 정확한 R2이 필요하면 더 큰 표본을 사용해야 합니다(일반적으로 40 이상).

  • 적합도 통계량은 모형이 데이터를 얼마나 잘 적합시키는 지에 대한 하나의 측도에 지나지 않습니다. 모형에 바람직한 값이 있더라도 해당 모형이 모형 가정을 충족하는지 확인하려면 잔차 그림을 확인해야 합니다.

반응 변수는 열량입니다.

변수R-제곱R-제곱(수정)R-제곱(예측)Mallows CpS










172.171.066.938.512.328      X 
139.437.126.3112.718.154X       
285.984.881.49.18.9321    XX 
282.080.674.217.810.076      XX
387.485.979.07.68.5978  XXX 
386.584.981.49.78.9110X  XX 
489.187.380.65.88.1698XXXX 
488.086.079.38.28.5550X  XXX
589.987.778.86.08.0390XXXXX
주요 결과: R-제곱, R-제곱(수정), R-제곱(예측), Mallows의 Cp, S

이 결과에는 추가로 조사해야 할 여러 모형이 있습니다. 5개의 예측 변수가 모두 포함된 모형은 S 값이 가장 낮고 수정된 R2 값이 가장 높습니다(각각 8과 88임). 예측 변수가 2개인 모형과 예측 변수가 3개인 모형은 모두 예측된 R2 값이 81.4%로 가장 높습니다. 최종 모형을 선택하기 전에 잔차 그림과 다른 진단 측도를 사용하여 모형이 회귀 분석 가정에 위배되지 않는지 조사해야 합니다.