한 은행에서는 대출 신청자로부터 수입, 교육 수준, 나이, 현 거주지에서 거주한 기간, 현 직장에서 일한 기간, 저축, 부채 및 신용카드 수 등 8가지 정보를 필요로 합니다. 한 은행 관리자가 이 데이터를 분석하여 데이터를 분류하고 보고하기 위한 최상의 방법을 결정하려고 합니다. 이 관리자는 대출 신청자 30명으로부터 이 데이터를 수집합니다.

관리자가 변수의 수를 줄여 데이터를 더 쉽게 분석하기 위해 주성분 분석을 수행합니다. 관리자는 데이터 변동의 90%를 설명하는 데 충분한 성분 수를 확인하려고 합니다.

  1. 표본 데이터대출신청자.MTW을 엽니다.
  2. 통계분석 > 다변량 > 주성분 분석을 선택합니다.
  3. 변수에 C1-C8을 입력합니다.
  4. 확인을 클릭합니다.

결과 해석

첫 번째 주성분이 전체 분산의 44.3%를 설명합니다. 첫 번째 주성분(PC1)과 가장 상관 관계가 높은 변수는 나이(0.484), 거주(0.466), 직장(0.459) 및 저축(0.404)입니다. 첫 번째 주성분은 이 네 변수 모두와 양의 상관 관계가 있습니다. 따라서 나이, 거주, 직장 및 저축의 값을 증가시키면 첫 번째 주성분의 값이 증가합니다. 처음 네 주성분이 데이터 변동의 90.7%를 설명합니다. 따라서 관리자는 이 성분들을 사용하여 대출 신청자를 분석하기로 결정합니다.

상관 행렬에 대한 고유 분석

고유값3.54762.13201.04470.53150.41120.16650.12540.0411
비율0.4430.2660.1310.0660.0510.0210.0160.005
누적0.4430.7100.8410.9070.9580.9790.9951.000

고유 벡터

변수PC1PC2PC3PC4PC5PC6PC7PC8
수입0.3140.145-0.676-0.347-0.2410.4940.018-0.030
교육 수준0.2370.444-0.4010.2400.622-0.3570.1030.057
나이0.484-0.135-0.004-0.212-0.175-0.487-0.657-0.052
거주 기간0.466-0.2770.0910.116-0.035-0.0850.487-0.662
근무 기간0.459-0.3040.122-0.017-0.014-0.0230.3680.739
저축0.4040.2190.3660.4360.1430.568-0.348-0.017
부채-0.067-0.585-0.078-0.2810.6810.245-0.196-0.075
신용카드 수-0.123-0.452-0.4680.703-0.195-0.022-0.1580.058