Cómo se inicia el proceso de conglomerados de K-medias

La creación de conglomerados de K-medias comienza con una agrupación de observaciones en un número predefinido de conglomerados.
  1. Minitab evalúa cada observación, moviéndola hacia el conglomerado más cercano. El conglomerado más cercano es el que tiene la distancia euclidiana más pequeña entre la observación y el centroide del conglomerado.
  2. Cuando un conglomerado cambia, al perder u obtener una observación, Minitab vuelve a calcular el centroide del conglomerado.
  3. Este proceso se repite hasta que no es posible mover más observaciones a un conglomerado diferente. En este punto, todas las observaciones se encuentran en su conglomerado más cercano según el criterio anterior.

A diferencia de cuando se crean conglomerados jerárquicos de observaciones, es posible que dos observaciones se dividan en conglomerados separados después de que se unen.

Los procedimientos de K-medias funcionan mejor cuando usted proporciona puntos iniciales adecuados para los conglomerados. Hay dos maneras de iniciar el proceso de creación de conglomerados: especificar un número de conglomerados o suministrar una columna de partición inicial que contenga códigos de grupos.

Usted podría iniciar el proceso cuando no tenga información completa para realizar la partición inicial de los datos. Supongamos que usted sabe que la partición final debe tener tres grupos y que las observaciones 2, 5 y 9 pertenecen a cada uno de esos grupos, respectivamente. El continuar desde este punto depende de si usted especifica el número de conglomerados o si proporciona una columna de partición inicial.
  • Si especifica el número de conglomerados, deberá reorganizar los datos en la hoja de trabajo para mover las observaciones 2, 5 y 9 a la parte superior de la hoja de trabajo y luego especificar 3 para el Número de conglomerados.
  • Si ingresa una columna de partición inicial, no necesitará reorganizar los datos en la hoja de trabajo. En la columna de partición inicial de la hoja de trabajo, ingrese los números de los grupos 1, 2 y 3, para las observaciones 2, 5 y 9, respectivamente, e ingrese 0 para el resto de las observaciones.

La partición final dependerá en cierto grado de la partición inicial que Minitab utilice. Usted podría intentar con diferentes particiones iniciales. De acuerdo con Milligan, los procedimientos de K-medias podrían no funcionar tan adecuadamente cuando las inicializaciones se realizan de forma arbitraria. Sin embargo, si usted proporciona puntos iniciales adecuados, los conglomerados de K-medias pueden ser bastante robustos.