주성분 분석에 대한 방법 및 공식

원하는 방법 또는 공식을 선택하십시오.

주성분 방법

주성분 분석에서 Minitab은 먼저 변수의 상관 또는 공분산 행렬의 직교 고유 벡터의 집합을 찾습니다. 주성분의 행렬은 고유 벡터 행렬과 독립 변수의 행렬의 곱입니다. 첫 번째 주성분은 전체 데이터 변동의 최대 백분율을 설명합니다. 두 번째 주성분은 전체 데이터 변동의 두 번째로 큰 백분율을 설명하며, 이런 식으로 계속됩니다. 주성분 분석의 목적은 가장 적은 수의 성분을 사용하여 분산의 최대량을 설명하는 것입니다.

계수의 비고유성

고유값들이 서로 구별되고 0이 아니면 주성분에 대한 계수가 고유합니다(부호 변화는 제외). 고유값이 반복되면 동일한 고유값에 해당하는 모든 주성분 벡터가 "차지하는 공간"은 고유하지만 개별 벡터는 고유하지 않습니다. 따라서 Minitab에서 출력에 표시하는 계수와 서적 또는 다른 프로그램의 계수는 같지 않을 수 있지만 고유값(성분의 분산)은 항상 동일합니다.

공분산 행렬의 순위가 r < p(p는 변수의 수)이면 p - r개의 고유값이 0과 같게 됩니다. 이러한 고유값에 해당하는 고유 벡터는 고유하지 않을 수 있습니다. 관측치의 수가 p보다 작거나 다중 공선성이 있으면 이러한 경우가 발생할 수 있습니다.

고유 벡터

고유 벡터는 각 변수에 해당하는 계수로 구성되며, 주성분 점수를 계산하기 위해 사용되는 각 변수에 대한 가중치입니다. 고유 벡터는 공분산 또는 상관 행렬, S 또는 R의 분광 분해의 직교 행렬의 열로 얻어집니다. 더 구체적으로는, R이 대칭인 경우 V'RV = D 또는 R = VDV'인 직교 행렬 V가 존재하며, 여기서 D는 대각 원소가 고유값인 대각 행렬입니다. 고유 벡터는 V의 열입니다. 고유 벡터는 R = VDV'에서 생성됩니다.

표기법

용어설명
R상관 행렬
V고유 벡터 행렬
D고유값의 대각 행렬

점수

공식

점수는 데이터의 분산을 설명하는 원래 변수의 선형 결합입니다.

점수는 다음과 같이 계산됩니다. Z = YV

표기법

용어설명
Z주성분 점수의 행렬(n × m)
Y상관 행렬 방법과 함께 사용되는 표준화된 데이터 행렬(n × p)
V고유 벡터 행렬(p × m)
참고

상관 행렬 방법(기본값) 대신 공분산 행렬 방법을 사용하는 경우 Minitab에서 표준화된 데이터 행렬 대신 Y에 대한 원시 데이터 행렬을 사용합니다.

고유값

공식

고유값은 공분산 또는 상관 행렬의 분광 분해에 있는 대각 행렬의 대각 원소입니다("고유값" 항목 참조). 고유값은 또한 주성분 Z = V Y의 표본 분산을 나타냅니다.

표기법

용어설명
Z주성분 점수의 행렬(n × m)
Y상관 행렬 방법과 함께 사용되는 표준화된 데이터 행렬(n × p)
V고유 벡터 행렬(p × m)
참고

상관 행렬 방법(기본값) 대신 공분산 행렬 방법을 사용하는 경우 Minitab에서 표준화된 데이터 행렬 대신 Y에 대한 원시 데이터 행렬을 사용합니다.

비율

공식

k번째 주성분에 의해 설명되는 표본 분산의 비율은 다음과 같이 계산됩니다.

표기법

용어설명
k번째 고유값
p변수의 수

누적 비율

공식

처음 k개의 주성분에 의해 설명되는 표본 분산의 누적 비율은 다음과 같이 계산됩니다.

표기법

용어설명
k번째 고유값
p변수의 수

Mahalanobis 거리

공식

Mahalanobis 거리는 데이터의 공분산 구조를 사용하여 다변량 공간의 각 점에서 전체 평균 또는 중심까지의 거리를 측정합니다.
Minitab에서는 Mahalanobis 거리 값이 큰 특이치를 나타내기 위해 특이치 그림에 기준선을 표시합니다. 기준선은 다음 공식으로 정의됩니다.

n – p – 1이 0인 경우, Minitab에서는 기준선 없이 특이치 그림을 표시합니다.

표기법

용어설명
Yii행의 데이터 값 벡터
평균 벡터
S-1공분산 행렬의 역행렬
p변수의 수
n비결측 행의 수