Ingresar los datos para Conglomerados de variables

Estadísticas > Análisis multivariado > Conglomerados de variables

Ingresar los datos

En Matriz de distancia o variables, ingrese las columnas que contienen los datos de las mediciones o una matriz de distancia almacenada que contenga las distancias entre todos los pares de variables.

Nota

Si usted especifica una matriz de distancia almacenada, Minitab no puede calcular los estadísticos de la partición final.

Para los datos de mediciones, debe tener dos o más columnas numéricas, y cada columna debe representar una medición diferente. Elimine de la hoja de trabajo las filas que tengan datos faltantes antes de realizar este análisis. Si tiene muchas filas de datos, debería crear un subconjunto de la hoja de trabajo para excluir las filas con valores faltantes. Para obtener más información, vaya a Revisión general de crear subconjunto de hoja de trabajo.

Usted no puede ingresar una variable categórica para este análisis. Si tiene una variable categórica, primero debe convertir los valores de texto a una escala numérica o debe realizar un análisis separado para cada nivel de la variable categórica. Para obtener más información, vaya a Consideraciones acerca de los datos para Conglomerados de variables.

Para la matriz de distancia almacenada, la entrada en la fila i y la columna j de la matriz de distancia D es la distancia entre las variables i y j. Para obtener información sobre cómo crear y usar matrices almacenadas en Minitab, vaya a Descripción general de matrices.

En esta hoja de trabajo, cada columna contiene mediciones de diferentes variables, medidas en diferentes ciudades del mundo, que pueden estar asociadas con las tasas de admisión a la educación superior. Las variables incluyen el número de copias de periódicos, radios y televisores por cada 1.000 personas en distintas ciudades, la tasa de alfabetización y la existencia de una universidad. Los investigadores esperan reducir el número de variables al combinar las variables con base en características similares.
C1 C2 C3 C4 C5
Periódico Radio Televisores Alfabetismo Universidad
279 267 227 0,98 1
143 112 332 0,94 1
9 113 7 0,25 0
391 314 566 0,99 1
112 48 423 0,82 1
67 66 134 0,45 0

Especificar el método de enlace

En Método de vinculación, seleccione un método para especificar cómo se define la distancia entre dos conglomerados. Se recomienda probar varios métodos de enlace para determinar cuál método proporciona los resultados más útiles para los datos.

Nota

Cuando se trata de Conglomerados de observaciones, distancia se refiere a la distancia entre las observaciones y enlace se refiere a la distancia entre los conglomerados de observaciones. En el caso de los Conglomerados de variables, distancia se refiere a la distancia entre las variables y enlace se refiere a la distancia entre los conglomerados de variables.

Promedio
La distancia entre dos conglomerados es la distancia media entre una observación (o variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Aunque los métodos de enlace individuales y completos se basan en las distancias entre pares individuales, el método de enlace promedio utiliza una medida de ubicación más central.
Centroide
La distancia entre los dos conglomerados es la distancia entre los centroides o las medias de los conglomerados. Al igual que el método de enlace promedio, este método también es una técnica de determinación del promedio.
Completo
La distancia entre dos conglomerados es la distancia máxima entre una observación (o variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Este método, también conocido como el método del vecino más lejano, garantiza que todas las observaciones (o variables) en un conglomerado se encuentren dentro de una distancia máxima y tiende a producir conglomerados con diámetros similares. Sin embargo, los resultados se ven afectados considerablemente por los valores atípicos.
McQuitty
La distancia del nuevo conglomerado con respecto a cualquier otro conglomerado se calcula como el promedio de las distancias entre los conglomerados que se unen y el otro conglomerado. Por ejemplo, si los conglomerados 1 y 3 se unen para formar un conglomerado nuevo, que podríamos identificar como 1*, la distancia desde 1* hasta el conglomerado 4 es el promedio de las distancias de 1 a 4 y de 3 a 4. Para este método, la distancia depende de una combinación de conglomerados y no de observaciones (o variables) individuales en los conglomerados.
Mediana
La distancia entre dos conglomerados es la mediana de la distancia entre una observación (o variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Puesto que esta técnica de determinación del promedio utiliza la mediana en lugar de la media, el efecto de los valores atípicos se reduce.
Individual
La distancia entre dos conglomerados es la distancia mínima entre una observación (o variable) en un conglomerado y una observación (o variable) en el otro conglomerado. Este método, también conocido como el método del vecino más cercano, es una opción adecuada cuando los conglomerados están obviamente separados. Cuando las observaciones (o variables) están cercanas entre sí, el método de enlace individual tiende a identificar largos conglomerados en forma de cadena, con distancias relativamente grandes entre las observaciones situadas en los extremos de la cadena.
Ward
La distancia entre dos conglomerados es la suma de los cuadrados de las desviaciones desde los puntos hasta los centroides. El objetivo del método de enlace de Ward es minimizar la suma de los cuadrados dentro del conglomerado. Este método tiende a producir conglomerados que tienen números similares de observaciones (o variables), pero es sensible a los valores atípicos. Además, la distancia entre dos conglomerados a veces puede ser mayor que dmax, que el valor máximo en la matriz original de distancias. Cuando esto sucede, el valor de similitud es negativo.

Especificar la medida de distancia

En Medición de la distancia, seleccione el método para calcular la distancia entre las variables.
  • Correlación: El método de correlación proporciona distancias entre 0 y 1 para las correlaciones positivas y entre 1 y 2 para las correlaciones negativas. Si tiene sentido considerar que los datos correlacionados negativamente estén más alejados que los datos correlacionados positivamente, utilice el método de correlación.
  • Correlación absoluta: El método de correlación absoluta proporciona distancias entre 0 y 1. Si cree que la fuerza de la relación es importante cuando se considera la distancia y no el signo, entonces utilice el método de correlación absoluta.

Especificar la partición final

Indique los criterios que desea utilizar para determinar las agrupaciones finales.
  • Número de conglomerados: Seleccione esta opción para ingresar el número de conglomerados para la partición final.
  • Nivel de similitud: Seleccione esta opción para ingresar el nivel de similitud para los conglomerados de la partición final.

Para obtener los mejores resultados, debe ser flexible con los criterios. Por ejemplo, si define la partición final usando el número de conglomerados, también debe considerar los cambios en el nivel de similitud. Una fuerte caída en el nivel de similitud cuando se agrega un conglomerado específico podría indicar que la partición final se debe especificar antes de esta agrupación. Por el contrario, si define la partición final usando el nivel de similitud, podría determinar que los niveles de similitud no cambian mucho en un rango de conglomerados y, por razones de simplicidad, podría optar por seleccionar el paso con el menor número de conglomerados.

Nota

Si no sabe qué valor ingresar para especificar la partición final, primero realice el análisis utilizando el valor predeterminado (1 conglomerado en la partición final). Minitab muestra los resultados para todos los números posibles de conglomerados. Utilice los resultados para determinar el valor que ingresará para la partición final. Luego repita el análisis y especifique la partición final que determinó. Para obtener más información, vaya a Determinar la agrupación final de conglomerados.

Mostrar dendrograma

Seleccione esta opción para mostrar un diagrama de árbol que muestra cómo se formaron los conglomerados en cada paso del procedimiento de amalgamación. El dendrograma permite ver los valores de similitud (o distancia) de los conglomerados en cada paso.

Para cambiar la presentación predeterminada del dendrograma, haga clic en Personalizar.