관측 개체 군집 분석에 대한 데이터 입력

통계분석 > 다변량 > 관측 개체 군집 분석

분석에 대한 데이터를 지정하고, 연결 및 거리 방법을 선택하거나, 변수를 표준화할 것인지 여부를 나타내고, 최종 분할을 지정하고 그래프 옵션을 선택합니다.

이 항목의 내용

데이터 입력
연결 방법 지정
거리 측도 지정
변수 표준화
최종 분할 지정
덴드로그램 표시

데이터 입력

변수 또는 거리 행렬에 측정 데이터가 포함된 열 또는 모든 관측치 쌍 간의 거리가 포함된 저장된 거리 행렬을 입력합니다.

참고

저장된 거리 행렬을 입력하면 Minitab에서 최종 분할에 대한 통계량을 계산할 수 없습니다.

측정 데이터의 경우 숫자 데이터 열이 두 개 이상 있고 각 열이 서로 다른 측정값을 나타내야 합니다. 이 분석을 수행하려면 먼저 워크시트에서 결측 데이터가 있는 행을 삭제하십시오. 데이터 행이 많은 경우에는 워크시트를 부분 집합으로 나누어 결측치가 있는 행을 제외할 수도 있습니다. 자세한 내용은 부분 집합 워크시트 개요에서 확인하십시오.

이 분석에서는 범주형 변수를 입력할 수 없습니다. 범주형 변수가 있는 경우 먼저 텍스트 값을 숫자 척도로 변환하거나 범주형 변수의 각 수준에 대해 별도의 분석을 수행해야 합니다. 자세한 내용은 관측 개체 군집 분석에 대한 데이터 고려사항에서 확인하십시오.

저장된 거리 행렬의 경우 설계 행렬 D의 i행과 j열의 항목이 관측치 i와 j 사이의 거리입니다. Minitab에서 저장된 행렬을 만들고 사용하는 방법에 대한 내용은 행렬 개요에서 확인하십시오.

이 워크시트의 각 열에는 선수에 대한 여러 측정값이 포함됩니다.

C1	C2	C3	C4
성별	키	몸무게	잘 쓰는 손
2	67	155	1
1	74	193	1
2	68	152	1
1	70	172	0
1	72	169	1
2	66	134	0

연결 방법 지정

연결 방법에서 두 군집 사이의 거리가 어떻게 정의되는지 지정하는 방법을 선택합니다. 여러 연결 방법을 사용하여 데이터에 가장 유용한 결과를 제공하는 방법을 확인할 수도 있습니다.

참고

관측 개체 군집 분석의 경우 거리는 관측치 사이의 거리를 가리키고 연결은 관측치 군집 사이의 거리를 가리킵니다. 변수 군집의 경우 거리는 변수 사이의 거리를 가리키고 연결은 변수 군집 사이의 거리를 가리킵니다.

평균: 두 군집 사이의 거리가 한 군집의 관측치(또는 변수)와 다른 군집의 관측치(또는 변수) 사이의 평균 거리입니다. 단일 및 완전 연결 방법에서는 한 쌍의 거리를 기반으로 하는 반면, 평균 연결 방법에서는 더 중심적인 위치 측도를 사용합니다.
중심: 두 군집 사이의 거리가 군집 중심 또는 평균 사이의 거리입니다. 평균 연결과 마찬가지로 이 방법은 평균화 기술입니다.
완전: 두 군집 사이의 거리가 한 군집의 관측치(또는 변수)와 다른 군집의 관측치(또는 변수) 사이의 최대 거리입니다. 이 방법(가장 먼 이웃 방법이라고도 함)을 사용할 경우 한 군집의 모든 관측치(또는 변수)는 최대 거리 내에 있게 되며 지름이 비슷한 여러 개의 군집이 생성되는 경향이 있습니다. 그러나 결과는 특이치의 영향을 크게 받습니다.
McQuitty: 새 군집의 다른 군집에 대한 거리는 곧 다른 군집에 결합될 군집 거리의 평균으로 계산됩니다. 예를 들어 군집 1과 군집 3이 결합되어 1*이라는 새 군집이 생성되는 경우 1*부터 군집 4까지의 거리는 1과 4의 거리 및 3과 4의 거리를 평균한 값입니다. 이 방법의 경우 거리는 군집에 있는 개별 관측치(또는 변수)가 아니라 군집의 조합에 따라 달라집니다.
중위수: 두 군집 간의 거리가 한 군집의 관측치(또는 변수)와 다른 군집의 관측치(또는 변수) 간 거리의 중위수입니다. 이 평균화 기술은 평균 대신 중위수를 사용하기 때문에 특이치의 영향이 감소합니다.
단일: 두 군집 간의 거리가 한 군집의 관측치(또는 변수)와 다른 군집의 관측치(또는 변수) 간의 최소 거리입니다. 이 방법은 가장 가까운 이웃 방법이라고도 하며 군집들이 명확하게 분리되어 있을 때 좋은 방법입니다. 관측치(또는 변수)가 서로 가까이 있으면 단일 연결 방법에서는 양 끝에 있는 관측치의 거리가 비교적 먼 긴 체인 모양의 군집을 식별하려는 경향이 있습니다.
Ward: 두 군집 간의 거리는 점에서 중심까지의 편차 제곱을 합한 값입니다. Ward 연결 방법의 목표는 군집 내 제곱합을 최소화하는 것입니다. 이 방법에서는 비슷한 수의 관측치(또는 변수)를 가진 군집이 생성되지만 특이치의 영향을 크게 받습니다. 또한 두 군집 간의 거리가 원래 거리 행렬의 최대값인 dmax보다 커질 수도 있습니다. 그러면 유사성 값이 음수가 됩니다.

거리 측도 지정

거리 측도에서 관측치 쌍 사이의 거리를 계산하는 방법을 선택합니다.

Euclid: 가장 일반적인 거리 측도로서, 차이 제곱합의 제곱근을 계산합니다.
Euclid 제곱: Euclid 방법을 사용하여 계산되는 거리의 제곱입니다. 이 방법은 특이치에 가중치를 더 부여합니다.
Pearson: 거리 제곱합의 제곱근을 분산으로 나눈 값입니다. 이 방법은 분산을 동일하게 설정하며 표준화에 사용됩니다.
Pearson 제곱: Pearson 방법을 사용하여 계산되는 거리의 제곱입니다. 이 방법은 특이치에 가중치를 더 부여하며 분산을 동일하게 설정합니다.
Manhattan: 절대 거리의 합입니다. 이 방법은 특이치에 가중치를 덜 부여합니다.

팁

평균, 중심, 중위수 또는 Ward을 연결 방법으로 선택한 경우 일반적으로 거리 제곱 측도 중 하나를 사용해야 합니다.

변수 표준화

Minitab에서 모든 변수에 동일한 가중치를 부여하려면 변수 표준화을 선택합니다. 표준화는 대부분의 경우에 적합한 방법이며, 변수들이 서로 다른 척도를 사용하는 경우 특히 중요합니다. 변수 A의 척도는 $0 ~ $10,000,000이고 변수 B의 척도는 0.0 ~ 1.0이라고 가정합니다. 변수가 표준화되지 않은 경우 관측 개체 군집 분석 절차에서 척도 값이 크기 때문에 변수 B보다 변수 A에 더 가중치를 부여하며, 이것은 아마도 원하는 결과가 아닐 것입니다. 따라서 변수를 표준화해야 합니다.

변수를 표준화하는 경우 Minitab에서는 모든 평균을 0, 모든 분산을 1로 설정합니다. 분산만 같도록 설정하려면 표준화 옵션을 선택하지 말고 Pearson 또는 Pearson 제곱을 거리 측도에서 선택하십시오.

최종 분할 지정

최종 그룹화를 결정하기 위해 사용할 기준을 나타냅니다.

군집 수: 최종 분할의 군집 수를 입력하려면 이 옵션을 선택합니다.
유사성 수준: 최종 분할의 군집에 대한 유사성 수준을 입력하려면 이 옵션을 선택합니다.

최상의 결과를 얻으려면 기준을 유연하게 조정해야 합니다. 예를 들어, 군집 수를 사용하여 최종 분할을 정의하는 경우 유사성 수준의 변화도 고려해야 합니다. 특정 군집을 추가할 때 유사성이 급격하게 감소하면 이 그룹화 전에 최종 분할을 지정해야 할 경우가 있습니다. 반대로 유사성 수준을 사용하여 최종 분할을 정의하는 경우 군집 간에 유사성 수준이 크게 달라지지 않을 수 있으며, 이 경우 작업을 단순화하기 위해 최소한의 군집을 사용하는 단계로 이동할 수 있습니다.

참고

최종 분할을 지정하기 위해 입력해야 하는 값을 모르면 먼저 기본 설정(최종 분할의 군집 1개)을 사용하여 분석을 수행합니다. Minitab에서는 가능한 모든 군집 수에 대한 결과를 표시합니다. 최종 분할에 대해 입력할 값을 결정하려면 결과를 사용합니다. 그런 다음 분석을 반복하고 결정한 최종 분할을 지정합니다. 자세한 내용은 군집의 최종 그룹화 결정에서 확인하십시오.

덴드로그램 표시

합병 절차의 각 단계에서 군집이 어떻게 형성되었는지 보여주는 트리 다이어그램을 표시하려면 이 옵션을 선택하십시오. 덴드로그램을 사용하면 각 단계에서 군집에 대한 유사성(또는 거리) 값을 볼 수 있습니다.

덴드로그램의 기본 표시 방식을 변경하려면 사용자 정의을 클릭하십시오.