한 은행에서 수입, 교육 수준, 나이, 현 거주지에서 거주한 기간, 현 직장에서 일한 기간, 저축, 부채 및 신용카드 수 등 8가지 정보를 대출 신청자에게 요구합니다. 한 은행 관리자가 이 데이터를 분석하여 데이터를 분류하고 보고하기 위한 최상의 방법을 결정하려고 합니다. 이 관리자는 대출 신청자 30명으로부터 이 데이터를 수집합니다.
은행 관리자는 각 변수 쌍 간의 선형 관계의 강도와 방향을 조사하기 위해 Pearson 상관을 사용합니다.
결과에 큰 영향을 미칠 수 있는 특이치를 찾는 데도 산점도 행렬을 사용합니다. 예를 들어 6번 행에는 변수 간 상관 관계에 영향을 미칠 수 있는 극단적인 데이터 점이 있습니다. 부채와 나이 그림에서 관련 예를 확인할 수 있습니다.
일반적으로 상관 관계가 강할수록 신뢰 구간이 좁습니다. 예를 들어 신용카드와 나이의 상관 관계는 약하고 95% 신뢰 구간 범위는 -0.468에서 0.242까지입니다.
상관 계수 유형 | Pearson |
---|---|
사용된 행 수 | 30 |
나이 | 거주 기간 | 근무 기간 | 저축 | 부채 | |
---|---|---|---|---|---|
거주 기간 | 0.838 | ||||
근무 기간 | 0.848 | 0.952 | |||
저축 | 0.552 | 0.570 | 0.539 | ||
부채 | 0.032 | 0.186 | 0.247 | -0.393 | |
신용카드 수 | -0.130 | 0.053 | 0.023 | -0.410 | 0.474 |