MARS® 회귀 분석에 대한 주요 결과 해석

다음 단계를 완료하여 해석합니다 MARS® 회귀 분석. 주요 결과에는 모형 요약 통계량, 변수 중요도, 부분 종속성 플롯 및 회귀 방정식이 포함됩니다.

1단계: 모형이 데이터를 얼마나 잘 적합시키는지 확인

모형이 데이터를 얼마나 잘 적합시키는지 확인하려면 모형 요약 표의 통계량을 조사하십시오. 일반적으로 통계의 테스트 버전을 사용하는 이유는 테스트 버전이 새 데이터에 대해 모델이 수행되는 방식을 더 잘 나타내기 때문입니다. 추가 모형을 적합시키는 경우 모형 요약 표의 값을 사용하여 모형이 데이터를 얼마나 잘 적합시키는지 비교하십시오.
검정 R-제곱
R2 결정계수 값이 높을수록 모형이 데이터를 더 잘 적합시킵니다. R2 는 항상 0%와 100% 사이이다. 특이치가 MAD보다 R2에 더 큰 영향을 미칩니다.
검정 평균 제곱근 오차(RMSE)
값이 작을수록 더 잘 적합함을 나타냅니다. 이상값은 MAD보다 RMSE에 더 큰 영향을 미칩니다.
검정 평균 제곱 오차(MSE)
값이 작을수록 더 잘 적합함을 나타냅니다. 이상값은 MAD보다 MSE에 더 큰 영향을 미칩니다.
검정 평균 절대 편차(MAD)
값이 작을수록 더 잘 적합함을 나타냅니다. 평균 절대 편차(MAD)는 데이터와 동일한 단위로 정확도를 표현하므로 오차 양을 개념화하는 데 도움이 됩니다. 특이치는 R2 결정계수, RMSE 및 MSE보다 MAD에 미치는 영향이 적습니다.

모형 요약

전체 예측 변수77
중요 예측 변수10
최대 기본 함수 수30
최적의 기본 함수 수13
통계량교육검정
R-제곱89.61%87.61%
루트 평균 제곱 오차(RMSE)25836.519727855.6550
평균 제곱 오차(MSE)667525749.7185775937512.8264
평균 절대 편차(MAD)17506.003817783.5549
주요 결과: 검정 R-제곱, 검정 평균 제곱근 오차(RMSE), 검정 평균 제곱근 오차(MSE), 검정 평균 절대 편차(MAD)

이 결과에서 검정 R-제곱은 약 88%입니다. 검정 평균 제곱근 오차는 약 27,856입니다. 검정 평균 제곱 오차는 약 775,937,513입니다. 검정 평균 절대 편차는 약 17,784입니다.

2단계: 모형에 가장 중요한 변수 결정

상대 변수 중요도 관리도를 사용하여 모형에서 가장 중요한 변수가 무엇인지 확인할 수 있습니다.

중요한 변수는 모형에서 최소 1개의 기저 함수에 있습니다. 개선 점수가 가장 높은 변수가 가장 중요한 변수로 설정되고 다른 변수의 순위가 적절하게 매겨집니다. 상대 변수 중요도는 해석의 용이성을 위해 중요도 값을 표준화합니다. 상대적 중요도는 가장 중요한 예측 변수에 대한 백분율 개선으로 정의됩니다.

상대 변수 중요도 값의 범위는 0%에서 100% 사이입니다. 가장 중요한 변수는 항상 100%의 상대적 중요도를 갖습니다. 변수가 기저 함수에 없으면 해당 변수는 중요하지 않습니다.

주요 결과: 상대 변수 중요도

이 예제에서 가장 중요한 예측 변수는 입니다 거실 공간. 상위 예측 변수 거실 공간의 기여도가 100%이면 다른 변수를 거실 공간 에 비교하여 중요도를 확인할 수 있습니다. 따라서 가장 중요한 예측 변수에 집중할 수 있습니다. 다음 목록에서는 이 모델에서 다음으로 가장 중요한 변수에 대해 설명합니다.
  • 품질 는 약 89% 만큼 중요합니다 거실 공간.
  • 준공 는 약 64% 만큼 중요합니다 거실 공간.
  • 1층 공간 는 약 60% 만큼 중요합니다 거실 공간.

이러한 결과에는 긍정적인 중요도를 가진 10개의 변수가 포함되지만 상대 순위는 특정 응용 프로그램을 제어하거나 모니터링할 변수 수에 대한 정보를 제공합니다. 한 변수에서 다음 변수로 상대적 중요도 값이 급격하게 떨어지면 제어하거나 모니터링할 변수에 대한 결정을 내릴 수 있습니다. 예를 들어, 이 데이터에서 가장 중요한 2개의 변수는 다음 변수에 대한 상대적 중요도가 20% 이상 떨어지기 전에 상대적으로 서로 가까운 중요도 값을 갖습니다. 마찬가지로 2개의 변수는 60% 이상의 유사한 중요도 값을 갖습니다. 다른 그룹에서 변수를 제거하고 분석을 다시 실행하여 다양한 그룹의 변수가 모형 요약 표의 예측 정확도 값에 미치는 영향을 평가할 수 있습니다.

3단계: 예측 변수의 효과 살펴보기

부분 종속성 그림, 기저 함수 및 회귀 방정식의 계수를 사용하여 예측 변수의 효과를 확인할 수 있습니다. 예측 변수의 효과는 예측 변수와 반응 간의 관계를 설명합니다. 예측 변수가 반응 변수에 미치는 예측 변수의 효과를 이해하기 위해 예측 변수에 대한 모든 기본 함수를 고려하십시오.

또한 다른 모델을 작성할 때 중요한 예측 변수의 사용과 관계 형태를 고려하십시오. 예를 들어 MARS® 회귀 모델에 교호작용이 포함된 경우 두 모델 유형의 성능을 비교하기 위해 이러한 교호작용을 최소제곱 회귀 모형에 포함할지 여부를 고려합니다. 예측 변수를 관리하는 응용 프로그램에서 효과는 반응 변수의 목표를 달성하기 위해 설정을 최적화하는 자연스러운 방법을 제공합니다.

가산 모형에서 단일 예측 변수, 부분 종속성 그림은 중요한 계량형 예측 변수가 예측 반응에 미치는 영향을 보여줍니다. 하나의 예측 변수 부분 종속성 플롯은 예측 변수 수준이 변경됨에 따라 반응이 어떻게 변경되는지 나타냅니다. 의 경우 그림의 MARS® 회귀 분석값은 x축의 예측 변수에 대한 기저 함수에서 가져옵니다. y축의 기여도는 그림의 최소값이 0이 되도록 표준화됩니다.

주요 결과: 부분 종속성 그림

이 플롯은 데이터 세트의 최소 평방 피트에서 약 3,000 평방 피트로 증가함에 따라 거실 공간 증가한다는 것을 판매 가격 보여줍니다. 거실 공간 3,000평방피트에 도달하면 기부금 판매 가격 은 약 $152,000로 평평해집니다.

회귀 방정식

BF2 = 최대(0, 3078 - 거실 공간)
BF3 = 품질이(가) 8, 9, 10인 경우
BF6 = 최대(0, 2002 - 준공)
BF7 = 지하 1층이(가) 누락되지 않은 경우
BF10 = 최대(0, 1696 - 지하 1층) * BF7
BF11 = 품질이(가) 1, 8인 경우
BF13 = 유형이(가) 90, 150, 160, 180, 190인 경우
BF15 = 이웃이(가) 블루스템, 클리어 크릭, 크로포드, 그린 힐스, 랜드마크, 노스리지, 노스리지 하이츠, 서머셋 빌리지, 스톤 브리지, 팀버랜드, 비엔커인 경우
BF17 = 지하 총면적이(가) 누락되지 않은 경우
BF19 = 최대(0, 지하 총면적 - 1392) * BF17
BF21 = 최대(0, 1층 공간 - 2402)
BF23 = 상태이(가) 1, 2, 3, 4, 5, 6인 경우
BF25 = 품질이(가) 1, 7, 10인 경우
BF27 = 최대(0, 1층 공간 - 2207)
BF30 = 최대(0, 15138 - 로트 지역)

판매 가격 = 325577  - 57.6167 * BF2 + 115438 * BF3 - 605.079 * BF6 - 25.3989 * BF10 - 66735.2 *
     BF11 - 23688.9 * BF13 + 22374.5 * BF15 + 50.3801 * BF19 - 576.789 * BF21 - 18099.2 * BF23 +
     22414.2 * BF25 + 361.254 * BF27 - 1.82 * BF30
주요 결과: 회귀 방정식

이 결과에서 BF2는 회귀 방정식에서 음의 계수를 갖습니다. 기저 함수에 대한 계수는 −57.6167입니다. 기저 함수의 배열은 max(0, c - X)입니다. 이 배열에서는 예측 변수가 증가하면 기저 함수의 값이 감소합니다. 이 배열과 음수 계수의 조합은 예측 변수와 반응 변수 사이에 양의 관계를 생성합니다. 의 거실 공간 기울기는 438에서 3,078까지 57.6167입니다.

공통 기저 함수의 더 많은 예를 보려면 로 에 대한 회귀 방정식 MARS® 회귀 분석이동하십시오.