Ingresar los datos para Conglomerados de observaciones

Estadísticas > Análisis multivariado > Conglomerados de observaciones

Especifique los datos para el análisis, seleccione los métodos de enlace y distancia, indique si desea estandarizar las variables, especifique la partición final y seleccione las opciones de gráficas.

Ingresar los datos

En Matriz de distancia o variables, ingrese las columnas que contienen los datos de las mediciones o una matriz de distancia almacenada que contenga las distancias entre todos los pares de observaciones.

Nota

Si usted especifica una matriz de distancia almacenada, Minitab no puede calcular los estadísticos de la partición final.

Para los datos de mediciones, debe tener dos o más columnas numéricas, y cada columna debe representar una medición diferente. Elimine de la hoja de trabajo las filas que tengan datos faltantes antes de realizar este análisis. Si tiene muchas filas de datos, debería crear un subconjunto de la hoja de trabajo para excluir las filas que tengan valores faltantes. Para obtener más información, vaya a Revisión general de crear subconjunto de hoja de trabajo.

Usted no puede ingresar una variable categórica para este análisis. Si tiene una variable categórica, primero debe convertir los valores de texto a una escala numérica o debe realizar un análisis separado para cada nivel de la variable categórica. Para obtener más información, vaya a Consideraciones acerca de los datos para Conglomerados de observaciones.

Para una matriz de distancia almacenada, la entrada en la fila i y columna j de la matriz de distancia D es la distancia entre las observaciones i y j. Para obtener información sobre cómo crear y usar matrices almacenadas en Minitab, vaya a Descripción general de matrices.

En esta hoja de trabajo, cada columna contiene diferentes mediciones de atletas.
C1 C2 C3 C4
Sexo Altura Ponderación Pref mano
2 67 155 1
1 74 193 1
2 68 152 1
1 70 172 0
1 72 169 1
2 66 134 0

Especificar el método de enlace

En Método de vinculación, seleccione un método para especificar cómo se define la distancia entre dos conglomerados. Se recomienda probar varios métodos de enlace para determinar cuál método proporciona los resultados más útiles para los datos.

Nota

Cuando se trata de Conglomerados de observaciones, distancia se refiere a la distancia entre las observaciones y enlace se refiere a la distancia entre los conglomerados de observaciones. En el caso de los Conglomerados de variables, distancia se refiere a la distancia entre las variables y enlace se refiere a la distancia entre los conglomerados de variables.

Promedio
La distancia entre dos conglomerados es la distancia media entre una observación (o variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Aunque los métodos de enlace individuales y completos se basan en las distancias entre pares individuales, el método de enlace promedio utiliza una medida de ubicación más central.
Centroide
La distancia entre los dos conglomerados es la distancia entre los centroides o las medias de los conglomerados. Al igual que el método de enlace promedio, este método también es una técnica de determinación del promedio.
Completo
La distancia entre dos conglomerados es la distancia máxima entre una observación (o variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Este método, también conocido como el método del vecino más lejano, garantiza que todas las observaciones (o variables) en un conglomerado se encuentren dentro de una distancia máxima y tiende a producir conglomerados con diámetros similares. Sin embargo, los resultados se ven afectados considerablemente por los valores atípicos.
McQuitty
La distancia del nuevo conglomerado con respecto a cualquier otro conglomerado se calcula como el promedio de las distancias entre los conglomerados que se unen y el otro conglomerado. Por ejemplo, si los conglomerados 1 y 3 se unen para formar un conglomerado nuevo, que podríamos identificar como 1*, la distancia desde 1* hasta el conglomerado 4 es el promedio de las distancias de 1 a 4 y de 3 a 4. Para este método, la distancia depende de una combinación de conglomerados y no de observaciones (o variables) individuales en los conglomerados.
Mediana
La distancia entre dos conglomerados es la mediana de la distancia entre una observación (o variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Puesto que esta técnica de determinación del promedio utiliza la mediana en lugar de la media, el efecto de los valores atípicos se reduce.
Individual
La distancia entre dos conglomerados es la distancia mínima entre una observación (o variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Este método, también conocido como el método del vecino más cercano, es una opción adecuada cuando los conglomerados están obviamente separados. Cuando las observaciones (o variables) están cercanas entre sí, el método de enlace individual tiende a identificar largos conglomerados en forma de cadena, con distancias relativamente grandes entre las observaciones situadas en los extremos de la cadena.
Ward
La distancia entre dos conglomerados es la suma de los cuadrados de las desviaciones desde los puntos hasta los centroides. El objetivo del método de enlace de Ward es minimizar la suma de los cuadrados dentro del conglomerado. Este método tiende a producir conglomerados que tienen números similares de observaciones (o variables), pero es sensible a los valores atípicos. Además, la distancia entre dos conglomerados a veces puede ser mayor que dmax, que el valor máximo en la matriz original de distancias. Cuando esto sucede, el valor de similitud es negativo.

Especificar la medida de distancia

En Medición de la distancia, seleccione el método para calcular la distancia entre pares de observaciones.
Euclidiano
La medida de distancia más común, que calcula la raíz cuadrada de la suma de la diferencias al cuadrado.
Euclidiano cuadrado
El cuadrado de la distancia que se calcula utilizando el método euclidiano. Este método concede más peso a los valores atípicos.
Pearson
La raíz cuadrada de la suma de las distancias al cuadrado dividida entre las varianzas. Este método hace que las varianzas sean iguales y se utiliza para estandarizar.
Pearson cuadrado
El cuadrado de la distancia que se calcula utilizando el método de Pearson. Este método concede más peso a los valores atípicos y hace que las varianzas sean iguales.
Manhattan
La suma de las distancias absolutas. Este método concede menos peso a los valores atípicos.
Sugerencia

Si seleccionó Promedio, Centroide, Mediana o Ward como el método de enlace, por lo general debería usar una de las medidas de distancia al cuadrado.

Estandarizar variables

Seleccione Estandarizar variables para que Minitab pondere todas las variables de igual manera. La estandarización es una práctica adecuada en la mayoría de los casos y resulta particularmente importante cuando las variables utilizan diferentes escalas. Supongamos que la variable A está en una escala en dólares de $0 a $10,000,000 y la variable B es una relación en una escala de 0.0 a 1.0. Si las variables no están estandarizadas, entonces el procedimiento de formación de conglomerados de observaciones concede mucho más peso a la variable A que a la variable B debido a los valores más grandes de su escala, lo que probablemente no sea el resultado deseado. Por lo tanto, las variables se deben estandarizar.

Cuando usted estandariza las variables, Minitab hace que todas las medias sean iguales a 0 y que todas las varianzas sean iguales a 1. Para hacer que solo las varianzas sean iguales, no seleccione la opción para estandarizar y en cambio elija Pearson o Pearson cuadrado en Medición de la distancia.

Especificar la partición final

Indique los criterios que desea utilizar para determinar las agrupaciones finales.
  • Número de conglomerados: Seleccione esta opción para ingresar el número de conglomerados para la partición final.
  • Nivel de similitud: Seleccione esta opción para ingresar el nivel de similitud para los conglomerados de la partición final.

Para obtener los mejores resultados, debe ser flexible con los criterios. Por ejemplo, si define la partición final usando el número de conglomerados, también debe considerar los cambios en el nivel de similitud. Una fuerte caída en el nivel de similitud cuando se agrega un conglomerado específico podría indicar que la partición final se debe especificar antes de esta agrupación. Por el contrario, si define la partición final usando el nivel de similitud, podría determinar que los niveles de similitud no cambian mucho en un rango de conglomerados y, por razones de simplicidad, podría optar por seleccionar el paso con el menor número de conglomerados.

Nota

Si no sabe qué valor ingresar para especificar la partición final, primero realice el análisis utilizando el valor predeterminado (1 conglomerado en la partición final). Minitab muestra los resultados para todos los números posibles de conglomerados. Utilice los resultados para determinar el valor que ingresará para la partición final. Luego repita el análisis y especifique la partición final que determinó. Para obtener más información, vaya a Determinar la agrupación final de conglomerados.

Mostrar dendrograma

Seleccione esta opción para mostrar un diagrama de árbol que muestra cómo se formaron los conglomerados en cada paso del procedimiento de amalgamación. El dendrograma permite ver los valores de similitud (o distancia) de los conglomerados en cada paso.

Para cambiar la presentación predeterminada del dendrograma, haga clic en Personalizar.