Ingresar los datos para Conglomerados de k-medias

Estadísticas > Análisis multivariado > Conglomerados de k-medias

Ingresar los datos

En Variables, ingrese las columnas que contienen los datos de las mediciones.

Debe tener dos o más columnas numéricas, donde cada columna represente una medición diferente. Debe eliminar las filas con datos faltantes de la hoja de trabajo antes de utilizar este procedimiento. Cuando tenga un conjunto de datos grande con muchos valores faltantes, pudiera ser más conveniente crear un subconjunto de la hoja de trabajo para excluir las filas con valores faltantes, en lugar de eliminar cada fila de forma manual. Para obtener más información, vaya a Revisión general de crear subconjunto de hoja de trabajo.

En esta hoja de trabajo, las columnas desde C1 hasta C4 contienen mediciones para cada variable que describe una característica de una empresa. La columna Inicial indica el conglomerado inicial al que pertenecen las observaciones. Observe que solo los valores distintos de cero en la columna Inicial se utilizan para definir cada conglomerado inicial (1, 2 y 3). Las observaciones restantes con un valor inicial de 0 no se asignan a un conglomerado inicial, sino que son asignadas a un conglomerado durante el proceso del algoritmo de formación de conglomerados, con base en el centroide de conglomerado del que estén más cerca.
C1 C2 C3 C4 C5
Clientes Tasa de retorno Ventas Años Inicial
150 13,5 50400200 18 1
98 11,7 45665230 12 2
79 12,0 19800800 7 0
122 11,4 42560000 13 0
143 12,4 47635980 15 0
49 9,8 22342600 6 3

Especificar la partición inicial

Indique las designaciones iniciales de conglomerados. Los procedimientos de k-medias funcionan mejor cuando usted proporciona puntos iniciales adecuados para los conglomerados. Base los conglomerados iniciales en el conocimiento práctico y/o de ingeniería acerca de las observaciones que se agruparán. Para obtener más información, vaya a Cómo se inicia el proceso de conglomerados de K-medias.

  • Número de conglomerados: Seleccione esta opción si no tiene un conocimiento a priori de los conglomerados iniciales. Ingrese un valor para especificar el número de conglomerados que desea formar. Los conglomerados iniciales son las primeras filas de datos en la hoja de trabajo. Por ejemplo, si ingresa 3, entonces las primeras tres filas de datos son los centroides de los conglomerados iniciales.
  • Columna de partición inicial: Seleccione esta opción para especificar una columna que contiene los miembros de los conglomerados iniciales. Utilice números enteros positivos para las observaciones que definen los conglomerados iniciales y utilice ceros para las observaciones restantes.

Estandarizar variables

Seleccione Estandarizar variables para que Minitab pondere todas las variables de igual manera. La estandarización es una práctica adecuada en la mayoría de los casos y resulta particularmente importante cuando las variables utilizan diferentes escalas. Supongamos que la variable A está en una escala en dólares de $0 a $10,000,000 y la variable B es una relación en una escala de 0.0 a 1.0. Si las variables no están estandarizadas, entonces el procedimiento de formación de conglomerados concede mucho más peso a la variable A que a la variable B debido a los valores más grandes de su escala, lo que probablemente no sea el resultado deseado. Por lo tanto, las variables se deben estandarizar.

Minitab estandariza todas las variables restando las medias y dividiendo entre la desviación estándar antes de calcular la matriz de distancia. Cuando usted estandariza las variables, el centroide principal es 0 para todos los conglomerados.