K-평균 군집 분석 공정을 시작하는 방법

K-평균 군집 분석에서는 먼저 관측치를 미리 정의된 수의 군집으로 그룹화합니다.

Minitab에서는 각 관측치를 평가한 후 가장 가까운 군집으로 이동합니다. 가장 가까운 군집은 관측치와 군집 중심 사이의 Euclid 거리가 가장 작은 군집입니다.
관측치가 제거되거나 추가되어 군집이 변경되면 Minitab에서는 군집 중심을 다시 계산합니다.
더 이상 관측치를 서로 다른 군집으로 이동할 수 없을 때까지 이 공정이 반복됩니다. 이 때 모든 관측치는 위에서 설명한 기준에 따라 가장 가까운 군집에 있게 됩니다.

관측치의 계층적 군집을 만드는 경우와 달리 두 개의 관측치를 연결한 후 서로 다른 군집으로 분리할 수 있습니다.

K-평균 절차는 군집에 대한 적당한 시작 점이 있는 경우 가장 효과적입니다. 군집 분석 공정을 시작하기 위한 방법에는 군집 수를 지정하거나 그룹 코드가 있는 초기 분할 열을 지정하는 두 가지 방법이 있습니다.

초기에 데이터를 분할하기 위한 정보가 완전하지 않을 경우 군집 분석 과정을 시작할 수 있습니다. 예를 들어 최종 분할에 세 개의 그룹이 있어야 하고 관측치 2, 5 및 9가 각각 이 그룹 중 하나에 속한다는 것을 알고 있을 경우 이후의 과정은 군집 수를 지정했는지 초기 분할 열을 지정했는 지에 따라 다릅니다. 이후의 과정은 군집 수를 지정했는지 초기 분할 열을 지정했는 지에 따라 다릅니다.

군집 수를 지정한 경우에는 워크시트에서 데이터를 다시 배열하여 관측치 2, 5, 9를 워크시트의 맨 위로 이동한 다음 군집 수로 3을 지정해야 합니다.
초기 분할 열을 입력한 경우에는 워크시트에서 데이터를 다시 배열할 필요가 없습니다. 워크시트의 초기 분할 열에서 관측치 2, 5, 9에 대해 그룹 번호를 각각 1, 2, 3으로 입력하고 다른 관측치에 대해서는 0을 입력합니다.

최종 분할은 Minitab에서 사용하는 초기 분할에 따라 약간씩 달라집니다. 여러 가지 초기 분할을 시도해 볼 수 있습니다. Milligan에 따르면 K-평균 절차는 초기화가 임의로 수행될 경우에 잘 작동할 수 없을 수도 있습니다. 그러나 초기 점을 올바르게 지정하면 K-평균 군집 분석이 매우 로버스트할 수 있습니다.