O agrupamento de K-médias começa com um agrupamento de observações em um número de agrupamentos predefinido.
- O Minitab avalia cada observação movendo-a para o agrupamento mais próximo. O agrupamento mais próximo é aquele com a menor distância euclidiana entre a observação e o centróide do agrupamento.
- Quando um agrupamento muda ao perder ou ganhar uma observação, o Minitab recalcula o centróide do agrupamento.
- Esse processo se repete até que não haja mais probabilidades para mover para outro agrupamento. Nesse ponto, todas as observações estão em seus agrupamentos mais próximos pelo critério anterior.
Diferentemente de quando se cria um agrupamento hierárquico de observações, é possível separar duas observações em agrupamentos diferentes após uni-las.
Os procedimentos de K-médias funcionam melhor quando você fornece pontos iniciais para agrupamentos. Existem duas maneiras de se iniciar o processo de agrupamento: especificar um número de agrupamentos ou fornecer uma coluna de partição inicial contendo códigos de grupos.
Pode ser possível iniciar o processo quando não existem informações completas para particionar os dados inicialmente. Suponha que você saiba que a partição final deverá ter três grupos e que as observações 2, 5 e 9 pertencem a cada um desses grupos, respectivamente. O prosseguimento depende de se você especificou o número de agrupamentos ou forneceu uma coluna de partição inicial.
- Se você especificar o número de agrupamentos, deverá reorganizar seus dados na worksheet para mover as observações 2, 5 e 9 para a parte superior da worksheet e, em seguida, especifique 3 para número de agrupamentos.
- Se você inserir uma coluna de partição inicial, não precisará reorganizar seus dados na worksheet. Na coluna da partição inicial da worksheet, digite os números de grupo 1, 2 e 3 para as observações 2, 5 e 9, respectivamente, e digite 0 para as outras observações.
A partição final dependerá até certo ponto da partição inicial usada pelo Minitab. Você pode tentar partições iniciais diferentes. Com base em Milligan, procedimentos de K-médias podem não funcionar tão bem quando as inicializações são feitas arbitrariamente. Entretanto, se você fornecer bons pontos iniciais, o agrupamento de K-médias pode ser bastante robusto.