주성분 분석 예

한 은행에서는 대출 신청자로부터 수입, 교육 수준, 나이, 현 거주지에서 거주한 기간, 현 직장에서 일한 기간, 저축, 부채 및 신용카드 수 등 8가지 정보를 필요로 합니다. 한 은행 관리자가 이 데이터를 분석하여 데이터를 분류하고 보고하기 위한 최상의 방법을 결정하려고 합니다. 이 관리자는 대출 신청자 30명으로부터 이 데이터를 수집합니다.

관리자가 변수의 수를 줄여 데이터를 더 쉽게 분석하기 위해 주성분 분석을 수행합니다. 관리자는 데이터 변동의 90%를 설명하는 데 충분한 성분 수를 확인하려고 합니다.

표본 데이터대출신청자.MWX을 엽니다.
통계분석 > 다변량 > 주성분 분석을 선택합니다.
변수에 C1-C8을 입력합니다.
확인을 클릭합니다.

결과 해석

첫 번째 주성분이 전체 분산의 44.3%를 설명합니다. 첫 번째 주성분(PC1)과 가장 상관 관계가 높은 변수는 나이(0.484), 거주(0.466), 직장(0.459) 및 저축(0.404)입니다. 첫 번째 주성분은 이 네 변수 모두와 양의 상관 관계가 있습니다. 따라서 나이, 거주, 직장 및 저축의 값을 증가시키면 첫 번째 주성분의 값이 증가합니다. 처음 네 주성분이 데이터 변동의 90.7%를 설명합니다. 따라서 관리자는 이 성분들을 사용하여 대출 신청자를 분석하기로 결정합니다.

상관 행렬에 대한 고유 분석

고유값	3.5476	2.1320	1.0447	0.5315	0.4112	0.1665	0.1254	0.0411
비율	0.443	0.266	0.131	0.066	0.051	0.021	0.016	0.005
누적	0.443	0.710	0.841	0.907	0.958	0.979	0.995	1.000

고유 벡터

변수	PC1	PC2	PC3	PC4	PC5	PC6	PC7	PC8
수입	0.314	0.145	-0.676	-0.347	-0.241	0.494	0.018	-0.030
교육 수준	0.237	0.444	-0.401	0.240	0.622	-0.357	0.103	0.057
나이	0.484	-0.135	-0.004	-0.212	-0.175	-0.487	-0.657	-0.052
거주 기간	0.466	-0.277	0.091	0.116	-0.035	-0.085	0.487	-0.662
근무 기간	0.459	-0.304	0.122	-0.017	-0.014	-0.023	0.368	0.739
저축	0.404	0.219	0.366	0.436	0.143	0.568	-0.348	-0.017
부채	-0.067	-0.585	-0.078	-0.281	0.681	0.245	-0.196	-0.075
신용카드 수	-0.123	-0.452	-0.468	0.703	-0.195	-0.022	-0.158	0.058