Interpretar todos los estadísticos y gráficas para Conglomerados de variables

Encuentre definiciones y ayuda para interpretar cada uno de los estadísticos y gráficas que se proporcionan con el análisis de conglomerado de variables.

Paso

El número del paso en el procedimiento de amalgamación para unir los conglomerados. En cada paso, un nuevo conglomerado se une a un conglomerado existente y se calcula el nivel de similitud y el nivel de distancia.

Número de conglomerados

El número de conglomerados que se forman en cada paso del proceso de amalgamación. Antes del primer paso, el número de conglomerados es igual al número total de observaciones (para los conglomerados de observaciones) o el número total de variables (para los conglomerados de variables). En el primer paso, dos conglomerados se unen para formar un nuevo conglomerado. En cada paso subsiguiente, otro conglomerado se une a un conglomerado existente para formar un nuevo conglomerado. En el paso final, todas las observaciones o variables se combinan en un único conglomerado.

Puede ingresar el número de conglomerados en el cuadro de diálogo principal para especificar la partición final de los datos. El método de enlace y la medida de distancia que usted elija influirá notablemente en el resultado de la formación de conglomerados.

Nivel de similitud

El porcentaje de la distancia mínima entre los conglomerados en cada paso de amalgamación con respecto a la distancia máxima entre las observaciones en los datos. La similitud, s(ij), entre dos conglomerados i y j viene dada por s(ij) = 100* [1 - d(ij) / d (máx)], donde d(máx) es el valor máximo en la matriz de distancia original, D, con la entrada d(ij) para la distancia entre i y j.

Interpretación

Utilice el nivel de similitud de los conglomerados que se unen en cada paso como ayuda para determinar las agrupaciones finales para los datos.Busque un cambio abrupto en el nivel de similitud entre los pasos. El paso que precede al cambio abrupto en la similitud puede representar un punto de corte adecuado para la partición final. Para la partición final, los conglomerados deben tener un nivel de similitud razonablemente alto. También debería utilizar su conocimiento práctico de los datos para determinar las agrupaciones finales que tienen más sentido para su aplicación.

Por ejemplo, la siguiente tabla de amalgamación muestra que el nivel de similitud disminuye ligeramente del paso 1 (93.9666) al paso 2 (93.1548). Luego la similitud disminuye abruptamente en el paso 3 (87.315), cuando el número de conglomerados cambia de 3 a 2. Estos resultados indican que 3 conglomerados pueden ser apropiados para la partición final. Si esta agrupación tiene sentido intuitivo, entonces es probable que sea una elección adecuada.

Distancia de coeficiente de correlación, Enlace de promedios

Pasos de amalgamación

PasoNúmero de
conglomerados
Nivel de
semejanzal
Nivel de
distancia
Conglomerados
incorporados
Nuevo
conglomerado
Número de obs. en
el conglomerado
nuevo
1493.96660.1206692322
2393.15480.1369044542
3287.31500.2537001413
4179.81130.4037751215

Nivel de distancia

La distancia entre los conglomerados (utilizando el método de enlace elegido) o las variables (utilizando la medida de distancia elegida) que se unen en cada paso. Minitab calcula el nivel de distancia con base en el método y la medida de distancia que usted seleccione en el cuadro de diálogo principal.

La distancia entre dos variables está relacionada directamente con su correlación. Es decir, para dos variables, X1 y X2, Distancia es igual a 1− Correlación. Por ejemplo, si Corr(X1,X2) = 0.879, entonces Distancia(X1,X2) = 1 − 0.879 = 0.121.

Interpretación

Utilice el nivel de distancia de los conglomerados que se unen en cada paso como ayuda para determinar las agrupaciones finales para los datos. Busque un cambio abrupto en el nivel de distancia entre los pasos. El paso que precede al cambio abrupto en la distancia puede representar un punto de corte adecuado para la partición final. Para la partición final, los conglomerados deben tener un nivel de distancia razonablemente pequeño. También debería utilizar su conocimiento práctico de los datos para determinar las agrupaciones finales que tienen más sentido para su aplicación.

Por ejemplo, la siguiente tabla de amalgamación muestra que el nivel de distancia aumenta ligeramente del paso 1 (0.120669) al paso 2 (0.136904). Luego la distancia aumenta más abruptamente en el paso 3 (0.253700), cuando el número de conglomerados cambia de 3 a 2. Estos resultados indican que 3 conglomerados pueden ser apropiados para la partición final. Si esta agrupación tiene sentido intuitivo, entonces es probable que sea una elección adecuada.

Distancia de coeficiente de correlación, Enlace de promedios

Pasos de amalgamación

PasoNúmero de
conglomerados
Nivel de
semejanzal
Nivel de
distancia
Conglomerados
incorporados
Nuevo
conglomerado
Número de obs. en
el conglomerado
nuevo
1493.96660.1206692322
2393.15480.1369044542
3287.31500.2537001413
4179.81130.4037751215

Conglomerados unidos

Los dos conglomerados que se unen para formar un nuevo conglomerado en cada paso del proceso de amalgamación.

Nuevo conglomerado

El número de identificación del nuevo conglomerado que se forma en cada paso del proceso de amalgamación. El número de identificación del nuevo conglomerado siempre es el más pequeño de los números de los dos conglomerados que se unen. Por ejemplo, si se unen el conglomerado 2 y el conglomerado 9, entonces el nuevo conglomerado que se forma se llama conglomerado 2.

Número de observaciones en el nuevo conglomerado

El número de observaciones de cada nuevo conglomerado que se forma en cada paso del proceso de amalgamación. En el paso final, todas las observaciones se combinan en un único conglomerado. Por lo tanto, el número de observaciones del nuevo conglomerado formado en el último paso es igual al número total de observaciones en los datos.

Nota

Para Conglomerados de variables, el número de observaciones es el número de variables del nuevo conglomerado.

Partición final

Si usted especifica una partición final en el cuadro de diálogo principal, Minitab muestra una lista de las variables en cada conglomerado. Las variables dentro de cada conglomerado incluido en la partición final deben tener sentido intuitivo, con base en la aplicación específica.

Dendrograma

El dendrograma es un diagrama de árbol que muestra los grupos que se forman al crear conglomerados de variables en cada paso y sus niveles de similitud. El nivel de similitud se mide en el eje vertical (alternativamente se puede mostrar el nivel de distancia) y las diferentes variables se especifican en el eje horizontal.

Interpretación

Utilice el dendrograma para ver cómo se formaron los conglomerados en cada paso y para evaluar los niveles de similitud (o distancia) de los conglomerados que se formaron.

Para ver los niveles de similitud (o de distancia), coloque el puntero del ratón sobre una línea horizontal del dendrograma. El patrón de cómo los valores de similitud o de distancia cambian de un paso a otro puede ayudar a elegir la agrupación final para los datos. El paso donde los valores cambian de manera abrupta podría identificar un punto adecuado para definir la agrupación final.

La decisión acerca de la agrupación final también se conoce como cortar el dendrograma. Cortar el dendrograma es similar a trazar una línea a lo largo del dendrograma para especificar la agrupación final. También puede comparar diferentes agrupaciones finales en los dendrogramas como ayuda para decidir cuál de ellas tiene más sentido para los datos.

Este dendrograma se creó usando una partición final de 3 conglomerados. Cada conglomerado final se indica con un color diferente. El dendrograma se "cortó" a un nivel de similitud de aproximadamente 88. Si el dendrograma se hubiera cortado más arriba, habría menos conglomerados finales, pero el nivel de similitud se reduciría. Si el dendrograma se hubiera cortado más abajo, el nivel de similitud sería mayor, pero habría más conglomerados finales.

Nota

Para algunos conjuntos de datos, los métodos de promedios, centroides, medianas y de Ward podrían no producir un dendrograma jerárquico. Es decir, la distancias de amalgamación no siempre aumentan con cada paso. En el dendrograma, un paso de ese tipo producirá una unión que va hacia abajo en vez de ir hacia arriba.