변수 군집에 대한 데이터 입력

통계분석 > 다변량 > 변수 군집 분석

이 항목의 내용

데이터 입력
연결 방법 지정
거리 측도 지정
최종 분할 지정
덴드로그램 표시

데이터 입력

변수 또는 거리 행렬에 측정 데이터가 포함된 열 또는 모든 변수 쌍 간의 거리가 포함된 저장된 거리 행렬을 입력합니다.

참고

저장된 거리 행렬을 입력하면 Minitab에서 최종 분할에 대한 통계량을 계산할 수 없습니다.

측정 데이터의 경우 숫자 데이터 열이 두 개 이상 있고 각 열이 서로 다른 측정값을 나타내야 합니다. 이 분석을 수행하려면 먼저 워크시트에서 결측 데이터가 있는 행을 삭제하십시오. 데이터 행이 많은 경우에는 워크시트를 부분 집합으로 나누어 결측치를 제외할 수도 있습니다. 자세한 내용은 부분 집합 워크시트 개요에서 확인하십시오.

이 분석에서는 범주형 변수를 입력할 수 없습니다. 범주형 변수가 있는 경우 먼저 텍스트 값을 숫자 척도로 변환하거나 범주형 변수의 각 수준에 대해 별도의 분석을 수행해야 합니다. 자세한 내용은 변수 군집에 대한 데이터 고려사항에서 확인하십시오.

저장된 거리 행렬의 경우 설계 행렬 D의 i행과 j열의 항목이 변수 i와 j 사이의 거리입니다. Minitab에서 저장된 행렬을 만들고 사용하는 방법에 대한 내용은 행렬 개요에서 확인하십시오.

이 워크시트의 각 열에는 전 세계 여러 도시에서 측정된 여러 변수에 대한 측정값이 포함되며, 이 측정값은 대학 합격률과 연관이 있을 수도 있습니다. 변수에는 여러 도시의 1,000명당 신문, 라디오 ,텔레비전 수, 식자율 및 대학 존재 여부가 포함됩니다. 조사자들은 비슷한 특성을 기준으로 변수를 결합하여 변수 수를 줄이고자 합니다.

C1	C2	C3	C4	C5
신문	라디오	텔레비전	식자율	대학
279	267	227	0.98	1
143	112	332	0.94	1
9	113	7	0.25	0
391	314	566	0.99	1
112	48	423	0.82	1
67	66	134	0.45	0

연결 방법 지정

연결 방법에서 두 군집 사이의 거리가 어떻게 정의되는지 지정하는 방법을 선택합니다. 여러 연결 방법을 사용하여 데이터에 가장 유용한 결과를 제공하는 방법을 확인할 수도 있습니다.

참고

관측 개체 군집 분석의 경우 거리는 관측치 사이의 거리를 가리키고 연결은 관측치 군집 사이의 거리를 가리킵니다. 변수 군집의 경우 거리는 변수 사이의 거리를 가리키고 연결은 변수 군집 사이의 거리를 가리킵니다.

평균: 두 군집 사이의 거리가 한 군집의 관측치(또는 변수)와 다른 군집의 관측치(또는 변수) 사이의 평균 거리입니다. 단일 및 완전 연결 방법에서는 한 쌍의 거리를 기반으로 하는 반면, 평균 연결 방법에서는 더 중심적인 위치 측도를 사용합니다.
중심: 두 군집 사이의 거리가 군집 중심 또는 평균 사이의 거리입니다. 평균 연결과 마찬가지로 이 방법은 평균화 기술입니다.
완전: 두 군집 사이의 거리가 한 군집의 관측치(또는 변수)와 다른 군집의 관측치(또는 변수) 사이의 최대 거리입니다. 이 방법(가장 먼 이웃 방법이라고도 함)을 사용할 경우 한 군집의 모든 관측치(또는 변수)는 최대 거리 내에 있게 되며 지름이 비슷한 여러 개의 군집이 생성되는 경향이 있습니다. 그러나 결과는 특이치의 영향을 크게 받습니다.
McQuitty: 새 군집의 다른 군집에 대한 거리는 곧 다른 군집에 결합될 군집 거리의 평균으로 계산됩니다. 예를 들어 군집 1과 군집 3이 결합되어 1*이라는 새 군집이 생성되는 경우 1*부터 군집 4까지의 거리는 1과 4의 거리 및 3과 4의 거리를 평균한 값입니다. 이 방법의 경우 거리는 군집에 있는 개별 관측치(또는 변수)가 아니라 군집의 조합에 따라 달라집니다.
중위수: 두 군집 간의 거리가 한 군집의 관측치(또는 변수)와 다른 군집의 관측치(또는 변수) 간 거리의 중위수입니다. 이 평균화 기술은 평균 대신 중위수를 사용하기 때문에 특이치의 영향이 감소합니다.
단일: 두 군집 간의 거리가 한 군집의 관측치(또는 변수)와 다른 군집의 관측치(또는 변수) 간의 최소 거리입니다. 이 방법은 가장 가까운 이웃 방법이라고도 하며 군집들이 명확하게 분리되어 있을 때 좋은 방법입니다. 관측치(또는 변수)가 서로 가까이 있으면 단일 연결 방법에서는 양 끝에 있는 관측치의 거리가 비교적 먼 긴 체인 모양의 군집을 식별하려는 경향이 있습니다.
Ward: 두 군집 간의 거리는 점에서 중심까지의 편차 제곱을 합한 값입니다. Ward 연결 방법의 목표는 군집 내 제곱합을 최소화하는 것입니다. 이 방법에서는 비슷한 수의 관측치(또는 변수)를 가진 군집이 생성되지만 특이치의 영향을 크게 받습니다. 또한 두 군집 간의 거리가 원래 거리 행렬의 최대값인 dmax보다 커질 수도 있습니다. 그러면 유사성 값이 음수가 됩니다.

거리 측도 지정

거리 측도에서 변수 사이의 거리를 계산하는 방법을 선택합니다.

상관계수: 상관 방법에서 거리는 양의 상관 관계가 있을 경우 0과 1 사이이고 음의 상관 관계가 있을 경우 1과 2 사이입니다. 음의 상관 관계가 있는 데이터가 양의 상관 관계가 있는 데이터보다 멀리 떨어져 있는 것이 적당하다고 생각하는 경우에는 상관 방법을 사용하십시오.
절대 상관: 절대 상관 방법에서 거리는 0과 1 사이입니다. 거리를 고려할 때 관계의 정도가 중요하고 부호는 중요하지 않다고 생각하는 경우 절대 상관 방법을 사용합니다.

최종 분할 지정

최종 그룹화를 결정하기 위해 사용할 기준을 나타냅니다.

군집 수: 최종 분할의 군집 수를 입력하려면 이 옵션을 선택합니다.
유사성 수준: 최종 분할의 군집에 대한 유사성 수준을 입력하려면 이 옵션을 선택합니다.

최상의 결과를 얻으려면 기준을 유연하게 조정해야 합니다. 예를 들어, 군집 수를 사용하여 최종 분할을 정의하는 경우 유사성 수준의 변화도 고려해야 합니다. 특정 군집을 추가할 때 유사성이 급격하게 감소하면 이 그룹화 전에 최종 분할을 지정해야 할 경우가 있습니다. 반대로 유사성 수준을 사용하여 최종 분할을 정의하는 경우 군집 간에 유사성 수준이 크게 달라지지 않을 수 있으며, 이 경우 작업을 단순화하기 위해 최소한의 군집을 사용하는 단계로 이동할 수 있습니다.

참고

최종 분할을 지정하기 위해 입력해야 하는 값을 모르면 먼저 기본 설정(최종 분할의 군집 1개)을 사용하여 분석을 수행합니다. Minitab에서는 가능한 모든 군집 수에 대한 결과를 표시합니다. 최종 분할에 대해 입력할 값을 결정하려면 결과를 사용합니다. 그런 다음 분석을 반복하고 결정한 최종 분할을 지정합니다. 자세한 내용은 군집의 최종 그룹화 결정에서 확인하십시오.

덴드로그램 표시

합병 절차의 각 단계에서 군집이 어떻게 형성되었는지 보여주는 트리 다이어그램을 표시하려면 이 옵션을 선택하십시오. 덴드로그램을 사용하면 각 단계에서 군집에 대한 유사성(또는 거리) 값을 볼 수 있습니다.

덴드로그램의 기본 표시 방식을 변경하려면 사용자 정의을 클릭하십시오.