Interpretar los resultados clave para Conglomerados de observaciones

Complete los siguientes pasos para interpretar un análisis de conglomerado de observaciones. La salida clave incluye los valores de similitud y distancia, el dendrograma y la partición final.

Paso 1: Examinar los niveles de similitud y de distancia

En cada paso del proceso de amalgamación, vea los conglomerados que se forman y examine sus niveles de similitud y distancia. Cuanto mayor sea el nivel de similitud, más similares serán las observaciones de cada conglomerado. Cuanto menor sea el nivel de distancia, más cerca estarán las observaciones en cada conglomerado.

Lo ideal sería que los conglomerados tuvieran un nivel de similitud relativamente alto y un nivel de distancia relativamente bajo. Sin embargo, esa meta se debe equilibrar con tener un número razonable y práctico de conglomerados.

Pasos de amalgamación

PasoNúmero de
conglomerados
Nivel de
semejanzal
Nivel de
distancia
Conglomerados
incorporados
Nuevo
conglomerado
Número de obs. en
el conglomerado
nuevo
11996.60050.162751316132
21895.46420.217151720172
31795.26480.226696962
41692.91780.339051718173
51590.52960.453391115112
61490.31240.463781219122
71388.24310.5628521422
81288.24310.562855852
91185.97440.6714661063
101083.06390.8108071373
11983.06390.810801312
12881.40390.8902721725
13779.81850.9661761165
14678.75341.0171641243
15566.21121.617602527
16462.00361.819041617
17341.04742.8222914110
18240.17182.8642127210
1910.00004.7873912120
Resultados clave: Nivel similitud, nivel de distancia

En estos resultados, los datos contienen un total de 20 observaciones. En el paso 1, dos conglomerados (las observaciones 13 y 16 de la hoja de trabajo) se unen para formar un nuevo conglomerado. Este paso crea 19 conglomerados en los datos, con un nivel de similitud de 96.6005 y un nivel de distancia de 0.16275. Aunque el nivel de similitud es alto y el nivel de distancia es bajo, el número de conglomerados es demasiado alto como para ser útil. En cada paso posterior, a medida que se forman nuevos conglomerados, el nivel de similitud disminuye y el nivel de distancia aumenta. En el paso final, todas las observaciones se unen en un único conglomerado.

Para ver los niveles de similitud en el dendrograma, coloque el puntero del ratón sobre una línea horizontal en el diagrama de árbol, en Minitab.

Paso 2: Determinar las agrupaciones finales para los datos

Utilice el nivel de similitud de los conglomerados que se unen en cada paso como ayuda para determinar las agrupaciones finales para los datos.Busque un cambio abrupto en el nivel de similitud entre los pasos. El paso que precede al cambio abrupto en la similitud puede representar un punto de corte adecuado para la partición final. Para la partición final, los conglomerados deben tener un nivel de similitud razonablemente alto. También debería utilizar su conocimiento práctico de los datos para determinar las agrupaciones finales que tienen más sentido para su aplicación.

Por ejemplo, la siguiente tabla de amalgamación muestra que el nivel de similitud disminuye en incrementos de aproximadamente 3 o menos hasta el paso 15. La similitud disminuye en más de 20 (de 62.0036 a 41.0474) en los pasos 16 y 17, cuando el número de conglomerados cambia de 4 a 3. Estos resultados indican que 4 conglomerados pueden ser suficientes para la partición final. Si esta agrupación tiene sentido intuitivo, entonces es probable que sea una elección adecuada.

Pasos de amalgamación

PasoNúmero de
conglomerados
Nivel de
semejanzal
Nivel de
distancia
Conglomerados
incorporados
Nuevo
conglomerado
Número de obs. en
el conglomerado
nuevo
11996.60050.162751316132
21895.46420.217151720172
31795.26480.226696962
41692.91780.339051718173
51590.52960.453391115112
61490.31240.463781219122
71388.24310.5628521422
81288.24310.562855852
91185.97440.6714661063
101083.06390.8108071373
11983.06390.810801312
12881.40390.8902721725
13779.81850.9661761165
14678.75341.0171641243
15566.21121.617602527
16462.00361.819041617
17341.04742.8222914110
18240.17182.8642127210
1910.00004.7873912120
Resultados clave: Nivel de similitud, número de conglomerados

La decisión acerca de la agrupación final también se conoce como cortar el dendrograma. Cortar el dendrograma es similar a trazar una línea horizontal a lo largo del dendrograma para especificar la agrupación final. Por ejemplo, para cortar este dendrograma en cuatro conglomerados, imagine trazar una línea horizontal alrededor de la mitad del eje vertical, justo por debajo del nivel de similitud de aproximadamente 41.

Paso 3: Examinar la partición final

Después de determinar las agrupaciones finales en el paso 2, vuelva a ejecutar el análisis y especifique el número de conglomerados (o el nivel de similitud) de la partición final. Minitab muestra la tabla de la partición final, que muestra las características de cada conglomerado incluido en la partición final. Por ejemplo, la distancia promedio desde el centroide proporciona una medida de la variabilidad de las observaciones dentro de cada conglomerado.

Examine los conglomerados incluidos en la partición final para determinar si la agrupación parece lógica para la aplicación específica. Si aún no está seguro, puede repetir el análisis y comparar diferentes agrupaciones finales en los dendrogramas para determinar cuál de ellas tiene más sentido para los datos.
Nota

Para obtener más información sobre estos estadísticos, vaya a Partición final.

Partición final

Número de
observaciones
Dentro de la
suma de
cuadrados del
conglomerado
Distancia
promedio
desde el
centroide
Distancia
máxima desde
centroide
Conglomerado173.257130.6125401.12081
Conglomerado272.722470.5813900.95186
Conglomerado330.559770.3989640.54907
Conglomerado430.371160.3265330.48848

Centroides de grupo

VariableConglomerado1Conglomerado2Conglomerado3Conglomerado4Centroide
principal
Sexo0.97468-0.974680.97468-0.97468-0.0000000
Altura-1.003521.01283-0.372770.351050.0000000
Peso-0.906720.93927-0.867970.79203-0.0000000
Pref mano0.638080.63808-1.48885-1.488850.0000000

Las distancias entre los centroides de conglomerados

Conglomerado1Conglomerado2Conglomerado3Conglomerado4
Conglomerado10.000003.357592.218823.61171
Conglomerado23.357590.000003.675572.23236
Conglomerado32.218823.675570.000002.66074
Conglomerado43.611712.232362.660740.00000
Resultados clave: Partición final, dendrograma

Este dendrograma se creó usando una partición final de 4 conglomerados, lo cual ocurre a un nivel de similitud de aproximadamente 40. El primer conglomerado (extremo izquierdo) se compone de siete observaciones (las observaciones de filas 1, 3, 6, 9, 10, 11 y 15 de la hoja de trabajo). El segundo conglomerado, inmediatamente a la derecha, se compone de 3 observaciones (las observaciones de las filas 4, 12 y 19 de la hoja de trabajo). El tercer grupo se compone de 7 observaciones (las observaciones de las filas 2, 14, 17, 20, 18, 5 y 8). El cuarto conglomerado, en el extremo derecho, se compone de 3 observaciones (las observaciones de las filas 7, 13 y 16). Si se cortara el dendrograma más arriba, entonces habría menos conglomerados finales, pero su nivel de similitud sería menor. Si se cortara el dendrograma más abajo, entonces el nivel de similitud sería mayor, pero habría más conglomerados finales.