Métodos de enlace para Conglomerados de variables

Promedio

En el enlace de promedios, la distancia entre dos conglomerados es la distancia promedio entre una variable de un conglomerado y una variable del otro conglomerado. La distancia promedio se calcula con la siguiente matriz de distancia:

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j
Nknúmero de variables en el conglomerado k
Nlnúmero de variables en el conglomerado l
Nmnúmero de variables en el conglomerado m

Centroide

En el enlace de centroides, la distancia entre los dos conglomerados es la distancia entre los centroides o las medias de los conglomerados. La distancia se calcula con la siguiente matriz de distancia:

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j
Nknúmero de variables en el conglomerado k
Nlnúmero de variables en el conglomerado l
Nmnúmero de variables en el conglomerado m

Completo

Con el método de enlace completo (también conocido como el método del vecino más lejano), la distancia entre dos conglomerados es la distancia máxima entre una variable de un conglomerado y una variable del otro conglomerado. La distancia completa se calcula con la siguiente matriz de distancia:

dmj = max (dkj, dlj)

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j

McQuitty

Con el método de enlace de McQuitty, la distancia se calcula con la siguiente matriz de distancia:

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j

Mediana

En el enlace de mediana, la distancia entre dos conglomerados es la mediana de la distancia entre una variable de un conglomerado y una variable del otro conglomerado. La mediana de distancia se calcula con la siguiente matriz de distancia:

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dlj distancia entre los conglomerados l y j
dkldistancia entre los conglomerados k y l

Individual

Con el método de enlace individual (también conocido como el método del vecino más cercano), la distancia entre dos conglomerados es la distancia mínima entre una variable de un conglomerado y una variable del otro conglomerado.

La distancia se calcula con la siguiente matriz de distancia:

dmj = min (dkj, dlj)

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j

Ward

En el enlace de Ward, la distancia entre dos conglomerados es la suma de las desviaciones al cuadrado desde los puntos hasta los centroides. El objetivo del enlace de Ward es minimizar la suma de los cuadrados dentro del conglomerado. La distancia se calcula con la siguiente matriz de distancia:

Nota

En el enlace de Ward, es posible que la distancia entre dos conglomerados sea mayor que d(max), el valor máximo en la matriz de distancia original, D. Si esto sucede, la similitud será negativa.

Notación

TérminoDescription
dmjdistancia entre los conglomerados m y j
mconglomerado combinado que consta de los conglomerados k y l, con m = (k,i)
dkjdistancia entre los conglomerados k y j
dljdistancia entre los conglomerados l y j
dkldistancia entre los conglomerados k y l
Njnúmero de variables en el conglomerado j
Nknúmero de variables en el conglomerado k
Nlnúmero de variables en el conglomerado l
Nmnúmero de variables en el conglomerado m