주성분 분석에 대한 데이터 입력

통계분석 > 다변량 > 주성분 분석

분석을 위한 데이터를 지정하고 계산할 성분 수를 입력하며 행렬 유형을 지정합니다.

데이터 입력

변수에 분석할 데이터 열을 지정합니다. 또한 서로 다른 측정값을 나타내는 숫자 데이터 열이 둘 이상 있어야 합니다. 결측값이 포함된 열이 있으면 전체 행이 무시됩니다. 결측값은 상관 또는 공분산 행렬의 계산에서 제외됩니다.

이 워크시트의 각 열에는 다른 유형의 대출 신청서에 대한 측정값이 포함됩니다.

C1 C2 C3 C4 C5 C6 C7 C8
소득 교육 나이 거주 직장 저축 부채 신용카드
50000 16 28 2 2 5000 1200 2
72000 18 35 10 8 12000 5400 4
61000 18 36 6 5 15000 1000 2
88000 20 35 4 4 980 1100 4
91100 18 38 8 9 20000 0 1
45100 14 41 15 14 3900 22000 4

계산할 성분 수

Minitab에서 계산할 주성분의 수를 입력합니다. 변수가 많은 경우 더 작은 수의 성분을 지정하여 출력량을 줄일 수도 있습니다. 몇 개의 성분을 입력해야 하는지 모를 경우 필드를 비워둘 수 있습니다. 개수를 지정하지 않을 경우 Minitab에서 최대 성분 수를 계산하며, 이 숫자는 변수 수와 같습니다. 그런 다음 출력을 사용하여 몇 개의 성분이 원래 변수의 변동 대부분을 설명하는지 확인할 수 있습니다.

행렬 유형

주성분을 계산하기 위해 사용할 행렬의 유형을 선택합니다.

  • 상관계수: 변수의 척도가 서로 다르고 모든 변수에 동일한 가중치를 부여하고자 할 때 사용합니다. 예를 들어, 일부 변수는 1-5의 척도를 사용하고 다른 변수는 1-10의 척도를 사용하는 경우, 상관 행렬을 사용하여 척도를 표준화하십시오.
  • 공분산: 변수들이 같은 척도를 사용하거나 변수들이 서로 다른 척도를 사용하지만 분산이 큰 변수를 강조하고자 할 때 사용합니다.

예를 들어, 여러 표본 장소에서 서로 다른 생물 종의 수를 카운트한다고 가정합니다. 공분산 행렬을 선택하는경우 더 일반적인 종이 더 높은 분산을 보이며 더 강조됩니다. 매우 희귀한 종은 분석에 크게 영향을 미치지 않습니다. 상관 행렬을 선택하는 경우 모든 종에 동일하게 가중치가 부여됩니다. 따라서 매우 희귀한 종이 분석 결과에 유의하게 기여할 수도 있습니다. 그러므로 연구의 목표에 따라 다른 결정이 내려집니다.