참고

이 명령은 예측 분석 모듈에서 사용할 수 있습니다. 모듈을 활성화하는 방법에 대한 자세한 내용은 여기를 클릭하십시오.

한 연구팀이 아이오와주 에임스에 있는 개별 주거용 부동산의 매각에서 데이터를 수집합니다. 연구원들은 판매 가격에 영향을 미치는 변수를 파악하고자 합니다. 변수에는 대지 규모와 주거용 부동산의 다양한 특징들이 포함됩니다. 연구원들은 최상의 MARS® 모형이 데이터를 얼마나 잘 적합시키는지 평가하려고 합니다.

  1. 표본 데이터 에임스주택.MTW를 엽니다.
  2. 예측 분석 모듈 > MARS® 회귀 분석을 선택합니다.
  3. 반응에 '판매 가격'을 입력합니다.
  4. 계량형 예측 변수'로트 프론트' – '년 판매’를 입력합니다.
  5. 범주형 예측 변수유형– '판매 조건’를 입력합니다 .
  6. 확인을 클릭합니다.

결과 해석

기본적으로 MARS® 회귀 분석 회귀 방정식의 모든 기저 함수가 1개의 예측 변수를 사용하도록 가산 모형을 피팅합니다. 목록의 첫 번째 예측 변수는 BF2입니다. BF2는 예측 변수를 거실 공간사용합니다. 예측 변수가 1 기저 함수에 있기 때문에 예측 변수의 기울기는 모형에 2개의 서로 다른 기울기를 갖습니다. 함수 max(0, 3078 - 거실 공간)는 생활 면적이 3,078보다 작을 때 기울기가 0이 아님을 정의합니다.

가산 모형의 결과에는 모형에서 중요한 계량형 예측 변수에 대한 부분 종속성 그림이 포함됩니다. 예측 변수의 범위에 걸쳐 예측 변수에 대한 모든 기저 함수의 효과를 확인하려면 그림을 사용합니다. 이 결과에서 부분 종속성 그림은 438에서 거실 공간 3,078 사이의 값에 대해 기울기가 약 57.6이라는 것을 보여줍니다. 가 3,078보다 크면 거실 공간 기울기는 0입니다.

이 결과에서 BF2는 회귀 방정식에서 음의 계수를 갖습니다. 기저 함수의 배열은 max(0, c - X)입니다. 이 배열에서는 예측 변수가 증가하면 기저 함수의 값이 감소합니다. 이 배열과 음수 계수의 조합은 예측 변수와 반응 변수 사이에 양의 관계를 생성합니다. 이 거실 공간 지역의 효과는 438에서 3,078로 증가하는 판매 가격 것입니다.

분석에는 범주형 예측 인자도 포함됩니다. 예를 들어, BF3은 예측 변수에 품질대한 것입니다. 기저 함수는 의 품질 값이 8, 9 또는 10인 경우에 대한 것입니다. 방정식에서 BF3에 대한 계수는 115,438입니다. 이 기저 함수는 품질 값이 1에서 7 값에서 8, 9 또는 10 값으로 변경되면 모델에서 판매 가격이 $115,438 증가함을 나타냅니다. 품질 BF11 및 BF25에도 있습니다. 예측 변수가 반응 변수에 미치는 영향을 이해하려면 모든 기저 함수를 고려하십시오.

모형에서 중요한 예측 변수 중 두 개는 학습 데이터에 결측값이 있습니다. 지하 1층지하 총면적. 기저 함수 목록에는 이러한 예측 변수가 누락된 경우를 식별하는 기저 함수가 포함됩니다. BF7 및 BF17. 예측 변수에 결측값이 있는 경우 인디케이터 변수의 기저 함수는 0을 곱하여 해당 예측 변수에 대한 다른 기저 함수를 무효화합니다.

회귀 방정식

BF2 = 최대(0, 3078 - 거실 공간)
BF3 = 품질이(가) 8, 9, 10인 경우
BF6 = 최대(0, 2002 - 준공)
BF7 = 지하 1층이(가) 누락되지 않은 경우
BF10 = 최대(0, 1696 - 지하 1층) * BF7
BF11 = 품질이(가) 1, 8인 경우
BF13 = 유형이(가) 90, 150, 160, 180, 190인 경우
BF15 = 이웃이(가) 블루스템, 클리어 크릭, 크로포드, 그린 힐스, 랜드마크, 노스리지, 노스리지 하이츠, 서머셋 빌리지, 스톤 브리지, 팀버랜드, 비엔커인 경우
BF17 = 지하 총면적이(가) 누락되지 않은 경우
BF19 = 최대(0, 지하 총면적 - 1392) * BF17
BF21 = 최대(0, 1층 공간 - 2402)
BF23 = 상태이(가) 1, 2, 3, 4, 5, 6인 경우
BF25 = 품질이(가) 1, 7, 10인 경우
BF27 = 최대(0, 1층 공간 - 2207)
BF30 = 최대(0, 15138 - 로트 지역)

판매 가격 = 325577  - 57.6167 * BF2 + 115438 * BF3 - 605.079 * BF6 - 25.3989 * BF10 - 66735.2 *
     BF11 - 23688.9 * BF13 + 22374.5 * BF15 + 50.3801 * BF19 - 576.789 * BF21 - 18099.2 * BF23 +
     22414.2 * BF25 + 361.254 * BF27 - 1.82 * BF30
참고

이 결과에서 기저 함수 목록에는 15개의 기저 함수가 있지만 최적의 기저 함수 수는 13개입니다. 회귀 방정식에는 13개의 기저 함수가 포함되어 있습니다. 기저 함수 목록에는 누락된 값을 식별하는 기저 함수인 BF7 및 BF17이 포함되어 있습니다. 이러한 기저 함수는 검색에서 다른 기저 함수만큼 MSE를 감소시키지 않았기 때문에 그 자체로는 중요하지 않습니다. 이 2 가지 기본 함수는 중요한 BF10 및 BF 19의 전체 계산을 보여주기 위해 목록에 있습니다.

R-제곱 대 기저 함수 개수 그림은 최적의 기저 함수 개수를 찾기 위한 역방향 제거의 결과를 보여줍니다. 기저 함수 개수가 다른 모형을 사용하려면 를 선택합니다 대체 모델 선택. 예를 들어, 기저 함수가 훨씬 적은 모형이 최적 모형만큼 정확하다면 더 간단한 모형을 사용할지 여부를 고려하십시오. 이 결과에서 훈련 및 검정 데이터 집합에 대한 R-제곱 값은 기저 함수가 7개인 모형에 대해 동일합니다. 이 더 작은 모형은 과적합이 우려되는 경우에 유용합니다.

모형 요약

전체 예측 변수77
중요 예측 변수10
최대 기본 함수 수30
최적의 기본 함수 수13
통계량교육검정
R-제곱89.61%87.61%
루트 평균 제곱 오차(RMSE)25836.519727855.6550
평균 제곱 오차(MSE)667525749.7185775937512.8264
평균 절대 편차(MAD)17506.003817783.5549

모델 요약 테이블에는 모델의 성능에 대한 측정값이 포함되어 있습니다. 이러한 값을 사용하여 모델을 비교할 수 있습니다. 이 결과의 경우 검정 R-제곱은 약 88%입니다.

상대 변수 중요도 차트는 예측 변수가 모형에 미치는 영향 순서대로 예측 변수를 표시합니다. 가장 중요한 예측 변수는 거실 공간입니다. 상위 예측 변수 100%이면 다음으로 중요한 변수 거실 공간품질인 의 기여도는 88.8%입니다. 이 기여도는이 모델에서와 같이 거실 공간 88.8 % 중요하다는 것을 의미합니다 품질 .

적합된 판매 가격 대 실제 판매 가격의 산점도는 훈련 데이터와 검정 데이터 모두에 대한 적합치와 실제 값 간의 관계를 보여줍니다. 그래프의 점 위로 마우스를 가져가 표시된 값을 보다 쉽게 볼 수 있습니다. 이 예에서 대부분의 점은 대략 y=x의 기준선 근처에 있습니다.

이 모형은 적합 판매 가격이 $100,000 미만이지만 실제 판매 가격이 $250,000에 가까운 테스트 데이터 집합의 모형과 같이 몇 가지 별개의 점에 적합하지 않습니다. 모형의 적합도를 개선하기 위해 이 사례를 조사할지 여부를 고려합니다.