Métodos de enlace para Conglomerados de observaciones

Promedio

Con el método de enlace de promedios, la distancia entre dos conglomerados es la distancia promedio entre una observación de un conglomerado y una observación del otro conglomerado. La distancia promedio se calcula con la siguiente matriz de distancia:

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dlj distancia entre los conglomerados l y j
Nknúmero de observaciones en el conglomerado k
Nlnúmero de observaciones en el conglomerado l
Nmnúmero de observaciones en el conglomerado m

Centroide

Con el método de enlace de centroides, la distancia entre los dos conglomerados es la distancia entre los centroides o las medias de los conglomerados. La distancia se calcula con la siguiente matriz de distancia:

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j
Nknúmero de observaciones en el conglomerado k
Nlnúmero de observaciones en el conglomerado l
Nmnúmero de observaciones en el conglomerado m

Completo

Con el método de enlace completo (también conocido como el método del vecino más lejano), la distancia entre dos conglomerados es la distancia máxima entre una observación de un conglomerado y una observación del otro conglomerado. La distancia completa se calcula con la siguiente matriz de distancia:

dmj = max (dkj, dlj)

Notación

TérminoDescription
dmj distancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j

McQuitty

Con el método de enlace de McQuitty, la distancia se calcula con la siguiente matriz de distancia:

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j

Mediana

Con el método de enlace de medianas, la distancia entre dos conglomerados es la mediana de la distancia entre una observación de un conglomerado y una observación del otro conglomerado. La mediana de distancia se calcula con la siguiente matriz de distancia:

Notación

TérminoDescription
dmj distancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dlj distancia entre los conglomerados l y j
dkldistancia entre los conglomerados k y l

Individual

Con el método de enlace individual (también conocido como el método del vecino más cercano), la distancia entre dos conglomerados es la distancia mínima entre una observación de un conglomerado y una observación del otro conglomerado. Cuando las observaciones están cercanas entre sí, el método de enlace individual tiende a identificar largos conglomerados en forma de cadena, con distancias relativamente grandes entre las observaciones situadas en los extremos de la cadena.

La distancia se calcula con la siguiente matriz de distancia:

dmj = min (dkj, dlj)

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j

Ward

Con el método de enlace de Ward, la distancia entre dos conglomerados es la suma de las desviaciones al cuadrado desde los puntos hasta los centroides. El objetivo del enlace de Ward es minimizar la suma de los cuadrados dentro del conglomerado. La distancia se calcula con la siguiente matriz de distancia:

Nota

Con el método de enlace de Ward, es posible que la distancia entre dos conglomerados sea mayor que dmax, que es el valor máximo en la matriz de distancia original. Si esto sucede, la similitud es negativa.

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j
dkldistancia entre los conglomerados k y l
Njnúmero de observaciones en el conglomerado j
Nknúmero de observaciones en el conglomerado k
Nlnúmero de observaciones en el conglomerado l
Nmnúmero de observaciones en el conglomerado m