Métodos de ligação para Agrupamento de observações

Média

Com o método de ligação por média, a distância entre dois agrupamentos é a distância média entre uma observação em um agrupamento e uma observação no outro agrupamento. A distância média é calculada com a seguinte matriz de distância:

Notação

TermoDescrição
dmjdistância entre os agrupamentos m e j
magrupamento mesclado que consiste nos agrupamentos k e l, com m = (k,i)
dkjdistância entre os agrupamentos k e j
dljdistância entre os agrupamentos l e j
Nknúmero de observações no agrupamento k
Nlnúmero de observações no agrupamento l
Nmnúmero de observações no agrupamento m

Centróide

Com o método ligação centróide, a distância entre dois agrupamentos é a distância entre os centróides ou médias dos agrupamentos. A distância é calculada com a seguinte matriz de distância:

Notação

TermoDescrição
dmjdistância entre os agrupamentos m e j
magrupamento mesclado que consiste nos agrupamentos k e l, com m = (k,i)
dkjdistância entre os agrupamentos k e j
dljdistância entre os agrupamentos l e j
Nknúmero de observações no agrupamento k
Nlnúmero de observações no agrupamento l
Nmnúmero de observações no agrupamento m

Completo

Com o método de ligação completo (também chamado método do vizinho mais distante), a distância entre dois agrupamentos é a distância máxima entre uma observação em um agrupamento e uma observação no outro agrupamento. A distância completa é calculada com a seguinte matriz de distância:

dmj = max (dkj, dlj)

Notação

TermoDescrição
dmjdistância entre os agrupamentos m e j
magrupamento mesclado que consiste nos agrupamentos k e l, com m = (k,i)
dkjdistância entre os agrupamentos k e j
dljdistância entre os agrupamentos l e j

McQuitty

Com o método de ligação de McQuitty, a distância é calculada com a seguinte matriz de distância:

Notação

TermoDescrição
dmjdistância entre os agrupamentos mi e j
magrupamento mesclado que consiste nos agrupamentos k e l, com m = (k,i)
dkjdistância entre os agrupamentos k e j
dljdistância entre os agrupamentos l e j

Mediana

Com o método de ligação por mediana, a distância entre dois agrupamentos é a distância mediana entre uma observação em um agrupamento e uma observação no outro agrupamento. A distância mediana é calculada com a seguinte matriz de distância:

Notação

TermoDescrição
dmj distância entre os agrupamentos m e j
magrupamento mesclado que consiste nos agrupamentos k e l, com m = (k,i)
dkjdistância entre os agrupamentos k e j
dlj distância entre os agrupamentos l e j
dkldistância entre os agrupamentos k e l

Simples

Com o método de ligação simples (também chamado método do vizinho mais próximo), a distância entre dois agrupamentos é a distância mínima entre uma observação em um agrupamento e uma observação no outro agrupamento. Quando as observações estão próximas, a ligação única tende a identificar agrupamentos longos em forma de cadeia, com distâncias relativamente grandes separando as observações nos dois extremos da cadeia.

A distância é calculada com a seguinte matriz de distância:

dmj = min (dkj, dlj)

Notação

TermoDescrição
dmjdistância entre os agrupamentos m e j
magrupamento mesclado que consiste nos agrupamentos k e l, com m = (k,i)
dkjdistância entre os agrupamentos k e j
dljdistância entre os agrupamentos l e j

Ward

No método ligação de Ward, a distância entre dois agrupamentos é a soma dos desvios quadrados dos pontos aos centroides. O objetivo da ligação de Ward é minimizar a soma dos quadrados dentro do agrupamento. A distância é calculada com a seguinte matriz de distância:

Observação

Com o método da ligação de Ward, a distância entre dois agrupamentos pode ser maior do que dmax, que é o valor máximo na matriz da distância original, D. Se isso acontecer, a similaridade é negativa.

Notação

TermoDescrição
dmjdistância entre os agrupamentos m e j
magrupamento mesclado que consiste nos agrupamentos k e l, com m = (k,i)
dkjdistância entre os agrupamentos k e j
dljdistância entre os agrupamentos l e j
dkldistância entre os agrupamentos k e l
Njnúmero de observações no agrupamento j
Nknúmero de observações no agrupamento k
Nlnúmero de observações no agrupamento l
Nmnúmero de observações no agrupamento m