주성분 분석에 대한 모든 통계량 및 그래프 해석

주성분 분석과 함께 제공되는 모든 통계 및 그래프에 대한 정의 및 해석 방법을 확인해 보십시오.

고유값

고유값(특성값 또는 잠재근이라고도 함)은 주성분의 분산입니다.

해석

고유값 크기를 사용하여 주성분 수를 결정할 수 있습니다. 고유값이 가장 큰 주성분을 유지합니다. 예를 들어, Kaiser 기준을 사용하는 경우 고유값이 1보다 큰 주성분만 사용합니다.

고유값 크기를 시각적으로 비교하려면 Scree 그림을 사용하십시오. Scree 그림은 고유값 크기를 기반으로 성분 수를 결정하는 데 도움이 됩니다.

상관 행렬에 대한 고유 분석

고유값3.54762.13201.04470.53150.41120.16650.12540.0411
비율0.4430.2660.1310.0660.0510.0210.0160.005
누적0.4430.7100.8410.9070.9580.9790.9951.000

고유 벡터

변수PC1PC2PC3PC4PC5PC6PC7PC8
수입0.3140.145-0.676-0.347-0.2410.4940.018-0.030
교육 수준0.2370.444-0.4010.2400.622-0.3570.1030.057
나이0.484-0.135-0.004-0.212-0.175-0.487-0.657-0.052
거주 기간0.466-0.2770.0910.116-0.035-0.0850.487-0.662
근무 기간0.459-0.3040.122-0.017-0.014-0.0230.3680.739
저축0.4040.2190.3660.4360.1430.568-0.348-0.017
부채-0.067-0.585-0.078-0.2810.6810.245-0.196-0.075
신용카드 수-0.123-0.452-0.4680.703-0.195-0.022-0.1580.058

이 결과에서는 처음 세 주성분의 값이 1보다 큽니다 이 세 성분이 데이터 변동의 84.1%를 설명합니다. Scree 그림은 고유값들이 세 번째 주성분 다음에 직선을 형성하기 시작한다는 것을 보여줍니다. 84.1%가 데이터에서 설명되는 적절한 변동량인 경우 처음 세 주성분을 사용해야 합니다.

비율

비율은 각 주성분에 의해 설명되는 데이터 변동성의 비율입니다.

해석

비율을 사용하여 데이터 변동성의 대부분을 설명하는 주성분을 확인할 수 있습니다. 비율이 높을수록 주성분이 변동성을 더 많이 설명합니다. 비율 크기는 주성분이 유지하기에 충분히 중요한지 여부를 결정하는 데 도움이 됩니다.

예를 들어, 비율이 0.621인 주성분은 데이터 변동성의 62.1%를 설명합니다. 따라서 이 성분은 포함할 만큼 중요합니다. 또 다른 성분은 비율이 0.005로, 데이터 변동성의 0.5%만 설명합니다. 이 성분은 포함할 만큼 중요하지 않을 수 있습니다.

누적

누적은 연속적인 주성분들이 설명하는 표본 변동성의 누적 비율입니다.

해석

누적 비율을 사용하면 연속적인 주성분들이 설명하는 전체 분산 양을 평가할 수 있습니다. 누적 비율은 사용할 주성분의 수를 결정하는 데 도움이 됩니다. 허용 가능한 분산 수준을 설명하는 주성분을 유지합니다. 허용 수준은 연구에 따라 다릅니다.

예를 들어, 설명을 위해서만 사용할 경우 주성분들이 분산의 80%만 설명하면 됩니다. 그러나 데이터에 대해 다른 분석을 수행하는 경우에는 주성분들이 분산의 90% 이상을 설명할 수도 있습니다.

주성분(PC)

주성분은 데이터의 분산을 설명하는 원래 변수의 선형 결합입니다. 추출된 성분의 최대 수는 항상 변수 수와 같습니다. 고유 벡터는 각 변수에 해당하는 계수로 구성되며, 주성분 점수를 계산하는 데 사용됩니다. 계수는 성분에서 각 변수의 상대적인 가중치를 나타냅니다.
참고

상관 행렬을 사용하는 경우 올바른 성분 점수를 얻으려면 변수를 표준화해야 합니다.

해석

각 주성분을 해석하려면 원래 변수 계수의 크기와 계수를 조사합니다. 계수의 절대값이 클수록 성분을 구성할 때 해당 변수의 중요성도 커집니다. 중요한 것으로 간주되기 위한 계수의 절대값 크기는 주관적입니다. 상관 계수 값이 중요한 수준을 확인하려면 전문 지식을 활용합니다.

상관 행렬에 대한 고유 분석

고유값3.54762.13201.04470.53150.41120.16650.12540.0411
비율0.4430.2660.1310.0660.0510.0210.0160.005
누적0.4430.7100.8410.9070.9580.9790.9951.000

고유 벡터

변수PC1PC2PC3PC4PC5PC6PC7PC8
수입0.3140.145-0.676-0.347-0.2410.4940.018-0.030
교육 수준0.2370.444-0.4010.2400.622-0.3570.1030.057
나이0.484-0.135-0.004-0.212-0.175-0.487-0.657-0.052
거주 기간0.466-0.2770.0910.116-0.035-0.0850.487-0.662
근무 기간0.459-0.3040.122-0.017-0.014-0.0230.3680.739
저축0.4040.2190.3660.4360.1430.568-0.348-0.017
부채-0.067-0.585-0.078-0.2810.6810.245-0.196-0.075
신용카드 수-0.123-0.452-0.4680.703-0.195-0.022-0.1580.058

이 결과에서 첫 번째 주성분은 나이, 거주, 직장 및 저축과 큰 양의 연관성이 있습니다. 이 성분을 신청자의 장기적인 재정 안정성에 대한 주요 측정값으로 해석할 수 있습니다. 두 번째 성분은 부채 및 신용카드와 큰 음의 연관성이 있으므로 주로 신청자의 신용 정보를 측정합니다. 세 번째 성분은 수입, 교육 수준 및 신용카드와 큰 음의 연관성이 있으므로 주로 신청자의 교육 및 직업 조건을 측정합니다.

점수

점수는 각 주성분에 대한 계수에 의해 결정되는 데이터의 선형 결합입니다. 각 관측치에 대한 점수를 얻으려면 주성분에 대한 선형 방정식에서 값을 대체하십시오. 상관 행렬을 사용하는 경우 선형 방정식을 사용할 때 정확한 성분 점수를 얻으려면 변수를 표준화해야 합니다.

참고

각 관측치에 대해 계산된 점수를 얻으려면 분석을 수행할 때 저장을 클릭하고 점수를 저장할 워크시트의 열을 입력하십시오. 첫 번째와 두 번째 성분에 대한 점수를 그래프에 시각적으로 표시하려면 분석을 수행할 때 그래프을 클릭하고 점수 그림을 선택하십시오.

상관 행렬에 대한 고유 분석

고유값3.54762.13201.04470.53150.41120.16650.12540.0411
비율0.4430.2660.1310.0660.0510.0210.0160.005
누적0.4430.7100.8410.9070.9580.9790.9951.000

고유 벡터

변수PC1PC2PC3PC4PC5PC6PC7PC8
수입0.3140.145-0.676-0.347-0.2410.4940.018-0.030
교육 수준0.2370.444-0.4010.2400.622-0.3570.1030.057
나이0.484-0.135-0.004-0.212-0.175-0.487-0.657-0.052
거주 기간0.466-0.2770.0910.116-0.035-0.0850.487-0.662
근무 기간0.459-0.3040.122-0.017-0.014-0.0230.3680.739
저축0.4040.2190.3660.4360.1430.568-0.348-0.017
부채-0.067-0.585-0.078-0.2810.6810.245-0.196-0.075
신용카드 수-0.123-0.452-0.4680.703-0.195-0.022-0.1580.058

이 결과에서 첫 번째 주성분에 대한 점수는 PC1 아래 나열된 계수를 사용하여 표준화된 데이터에서 계산할 수 있습니다.

PC1 = 0.314 수입 + 0.237 교육 + 0.484 나이 + 0.466 거주지 + 0.459 직장 + 0.404 저축 - 0.067 부채 - 0.123 신용카드

거리

Mahalanobis 거리는 데이터 점과 다변량 공간의 중심(전체 평균) 사이의 거리입니다.

참고

각 관측치에 대한 거리를 계산하려면 분석을 수행할 때 저장을 클릭하고 거리를 저장할 워크시트의 열을 입력하십시오. 거리를 그래프에 표시하려면 분석을 수행할 때 그래프을 클릭한 다음 특이치 그림을 선택하십시오.

해석

Mahalanobis 거리를 사용하면 특이치를 식별할 수 있습니다. Mahalanobis 거리를 조사하는 것은 거리가 변수 간에 서로 다른 척도 및 상관 관계를 고려하기 때문에 특이치를 탐지하는 데 있어 한 번에 하나의 변수를 조사하는 것보다 더 강력한 다변량 방법입니다.

예를 들어, 개별적으로 고려할 경우 원으로 표시되는 데이터 점의 x-값 및 y-값이 비정상적이지 않습니다. 그러나 데이터 점은 두 변수의 상관 관계 구조에 적합하지 않습니다. 따라서 이 점에 대한 Mahalanobis 거리가 비정상적으로 큽니다.

거리 값이 관측치를 특이치로 간주할 만큼 충분히 큰지 여부를 평가하려면 특이치 그림을 사용하십시오.

Scree 그림

Scree 그림은 주성분 번호와 해당 고유값을 표시합니다. Scree 그림은 고유값을 가장 큰 값에서 가장 작은 값의 순서로 정렬합니다. 상관 행렬의 고유값은 주성분의 분산과 같습니다.

Scree 그림을 표시하려면 분석을 수행할 때 그래프을 클릭하고 Scree 그림을 선택합니다.

해석

Scree 그림을 사용하면 고유값의 크기를 기반으로 성분 수를 선택할 수 있습니다. 이상적인 패턴은 기울기가 큰 곡선 다음에 완만한 곡선이 나오고 직선이 이어지는 형태입니다. 선 형태가 시작되는 첫 번째 점 이전의 기울기가 큰 곡선에 있는 성분을 사용하십시오.

이 Scree 그림은 고유값들이 세 번째 주성분 다음에 직선을 형성하기 시작한다는 것을 보여줍니다. 따라서 나머지 주성분은 변동성의 아주 작은 부분(0에 가까움)을 설명하므로 중요하지 않을 수 있습니다.

점수 그림

점수 그림은 두 번째 주성분 점수 대 첫 번째 주성분 점수를 그래프로 나타낸 것입니다.

점수 그림을 표시하려면 분석을 수행할 때 그래프을 클릭하고 점수 그림을 선택합니다.

해석

처음 두 성분이 데이터에서 분산의 대부분을 설명하는 경우에는 점수 그림을 사용해도 데이터 구조를 평가할 수 있고 군집, 특이치 및 추세를 탐지할 수 있습니다. 그림의 데이터 그룹은 데이터에 둘 이상의 개별 분포가 존재한다는 것을 나타낼 수도 있습니다. 데이터가 정규 분포를 따르고 특이치가 없는 경우 점들은 0 주위에 랜덤하게 분포합니다.

이 점수 그림에서 하단 구석에 있는 점이 특이치일 수 있습니다. 이 점을 조사해야 합니다.

각 관측치에 대해 계산된 점수를 보려면 포인터를 그래프의 데이터 점 위에 놓으십시오. 다른 성분에 대한 점수 그림을 생성하려면 점수를 저장하고 그래프 > 산점도을 사용하십시오.

적재 그림

적재 그림은 첫 번째 성분에 대한 각 변수의 계수 대 두 번째 성분에 대한 계수를 그래프로 표시합니다. 계수는 각 주성분에 대한 고유벡터를 구성하는 값입니다. 계수는 성분에서 각 변수의 상대적인 가중치를 나타냅니다.

적재 그림을 표시하려면 분석을 수행할 때 그래프을 클릭하고 적재 그림을 선택합니다.

해석

적재 그림을 사용하면 각 성분에 가장 큰 영향을 미치는 변수를 식별할 수 있습니다. 계수의 범위는 -1에서 1 사이입니다. 계수가 -1 또는 1에 가까우면 변수가 성분에 큰 영향을 미친다는 것을 나타냅니다. 계수가 0에 가까우면 변수가 성분에 미치는 영향이 약하다는 것을 나타냅니다. 계수를 평가하면 변수의 관점에서 각 성분을 특성화하는 데도 도움이 될 수 있습니다.

이 계수 그림에서 나이, 거주, 직장 및 저축은 성분 1에 큰 음의 적재가 되므로 이 성분은 주로 신청자의 재정 안정성을 측정합니다. 부채 및 신용 카드는 성분 2에서 음의 계수가 크므로 이 성분은 주로 신청자의 신용 기록을 측정합니다.

행렬도

행렬도는 점수 그림과 적재 그림을 겹쳐서 표시합니다.

행렬도를 표시하려면 분석을 수행할 때 그래프을 클릭하고 행렬도를 선택하십시오.

해석

행렬도를 사용하여 데이터 구조와 처음 두 성분의 적재를 한 그래프에 나타낼 수 있습니다. Minitab에서는 두 번째 주성분 점수 대 첫 번째 주성분 점수 및 두 성분에 대한 적재를 그림으로 표시합니다.

이 행렬도를 통해 다음 내용을 알 수 있습니다.
  • 나이, 거주, 직장 및 저축은 성분 1에 큰 음의 적재가 되므로 이 성분은 신청자의 장기적인 재정 안정성에 초점을 맞춥니다.
  • 부채 및 신용카드는 성분 2에 큰 음의 적재가 되므로 이 성분은 신청자의 신용 정보에 초점을 맞춥니다.
  • 오른쪽 하단 구석에 있는 점이 특이치일 수 있습니다. 이 점을 조사해야 합니다.

특이치 그림

특이치 그림은 특이치를 나타내기 위해 각 관측치에 대한 Mahalanobis 거리 및 기준선을 표시합니다. Mahalanobis 거리는 각 데이터 점과 다변량 공간의 중심(전체 평균) 사이의 거리입니다. Mahalanobis 거리를 조사하는 것은 변수 간에 서로 다른 척도와 상관 관계를 고려하기 때문에 특이치를 탐지하는 데 있어 한 번에 하나의 변수를 조사하는 것보다 더 강력한 방법입니다.

특이치 그림을 표시하려면 분석을 수행할 때 그래프을 클릭하고 특이치 그림을 선택해야 합니다.

해석

특이치 그림을 사용하면 특이치를 식별할 수 있습니다. 기준선 위에 있는 점은 특이치입니다.

특이치는 분석 결과에 크게 영향을 미칠 수 있습니다. 따라서 데이터의 특이치를 식별하는 경우 해당 값이 왜 비정상적인지 이해하려면 관측치를 조사해야 합니다. 모든 측정 오류 또는 데이터 입력 오류를 수정하십시오. 특수 원인과 관련된 데이터를 제거하고 분석을 다시 실행해 보십시오.

이 결과에는 특이치가 없습니다. 모든 점이 기준선 아래에 있습니다.

관측치를 식별하려면 특이치 그림의 점 위에 포인터를 놓으십시오. 그림의 여러 특이치를 브러시하고 워크시트의 관측치를 표시하려면 편집기 > 브러시을 사용하십시오.