K-평균 군집에 대한 데이터 입력

통계분석 > 다변량 > K-평균 군집 분석

이 항목의 내용

데이터 입력
초기 분할 지정
변수 표준화

데이터 입력

변수에 측정 데이터가 포함된 열을 입력합니다.

또한 서로 다른 측정값을 나타내는 숫자 열이 둘 이상 있어야 합니다. 이 절차를 사용하려면 먼저 워크시트에서 결측 데이터가 있는 행을 삭제해야 합니다. 결측치가 많은 큰 데이터 집합이 있는 경우 각 행을 수동으로 삭제하는 대신 워크시트를 부분 집합으로 나누어 결측치가 있는 행을 제외하는 것이 더 편리합니다. 자세한 내용은 부분 집합 워크시트 개요에서 확인하십시오.

이 워크시트에서 C1 ~ C4열에는 회사의 특성을 설명하는 각 변수에 대한 측정값이 포함됩니다. 초기 열은 관측치에 대한 초기 소속 군집을 나타냅니다. 초기 열의 0이 아닌 값만이 각 초기 군집(1, 2, 3)을 정의하기 위해 사용됩니다. 초기값이 0인 나머지 관측치는 초기 군집에 할당되지 않지만 군집 지정 알고리즘 과정 중에 가장 가까운 군집 중심을 기반으로 하나의 군집에 할당됩니다.

C1	C2	C3	C4	C5
고객	수익률	판매량	년	초기
150	13.5	50400200	18	1
98	11.7	45665230	12	2
79	12.0	19800800	7	0
122	11.4	42560000	13	0
143	12.4	47635980	15	0
49	9.8	22342600	6	3

초기 분할 지정

시작 군집 지정을 나타냅니다. K-평균 절차는 군집에 대한 적합한 시작 점이 있는 경우 가장 효과적입니다. 군집으로 구분되는 관측치에 대한 실제 및 공학적 지식을 토대로 초기 군집을 지정합니다. 자세한 내용은 K-평균 군집 분석 공정을 시작하는 방법에서 확인하십시오.

군집 수: 초기 군집에 대한 사전 지식이 없는 경우 이 옵션을 선택합니다. 값을 입력하여 만들 군집 수를 지정합니다. 초기 군집은 워크시트의 첫 번째 데이터 행입니다. 예를 들어, 3을 입력하면 처음 새 데이터 행의 초기 군집 중심입니다.
초기 분할 열: 초기 소속 군집이 포함된 열을 지정하려면 이 옵션을 선택합니다. 초기 군집을 정의하는 관측치에는 양의 정수를 사용하고 나머지 관측치에는 0을 사용합니다.

변수 표준화

Minitab에서 모든 변수에 동일한 가중치를 부여하려면 변수 표준화을 선택합니다. 표준화는 대부분의 경우에 좋은 방법이며, 변수들이 서로 다른 척도를 사용하는 경우 특히 중요합니다. 변수 A의 척도는 $0 ~ $10,000,000, 변수 B의 척도는 0.0 ~ 1.0이라고 가정합니다. 변수가 표준화되지 않은 경우 군집 절차에서 척도 값이 크기 때문에 변수 B보다 변수 A에 더 가중치를 부여하며, 이것은 아마도 원하는 결과가 아닐 것입니다. 따라서 변수를 표준화해야 합니다.

Minitab은 거리 행렬을 계산하기 전에 평균을 빼고 표준 편차로 나누어 모든 변수를 표준화합니다. 변수를 표준화할 때 모든 군집에 대한 총 중심은 0입니다.