Bei der durchschnittlichen Kopplung ist die Distanz zwischen zwei Clustern die durchschnittliche Distanz zwischen einer Beobachtung in einem Cluster und einer Beobachtung in dem anderen Cluster. Die durchschnittliche Distanz wird anhand der folgenden Distanzmatrix berechnet:
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Nk | Anzahl der Beobachtungen in Cluster k |
Nl | Anzahl der Beobachtungen in Cluster l |
Nm | Anzahl der Beobachtungen in Cluster m |
Bei der Zentroidkopplung ist die Distanz zwischen zwei Clustern die Distanz zwischen den Cluster-Zentroiden bzw. -Mittelwerten. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Nk | Anzahl der Beobachtungen in Cluster k |
Nl | Anzahl der Beobachtungen in Cluster l |
Nm | Anzahl der Beobachtungen in Cluster m |
Bei der vollständigen Kopplung (auch als „entferntester Nachbar“ bezeichnet) ist die Distanz zwischen zwei Clustern die maximale Distanz zwischen einer Beobachtung in einem Cluster und einer Beobachtung in dem anderen Cluster. Die vollständige Distanz wird anhand der folgenden Distanzmatrix berechnet:
dmj = max (dkj, dlj)
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Bei der McQuitty-Kopplung wird die Distanz anhand der folgenden Distanzmatrix berechnet:
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Bei der Median-Kopplung ist die Distanz zwischen zwei Clustern die Median-Distanz zwischen einer Beobachtung in einem Cluster und einer Beobachtung in dem anderen Cluster. Die Median-Distanz wird anhand der folgenden Distanzmatrix berechnet:
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
dkl | Distanz zwischen den Clustern k und l |
Bei der Einzelkopplung (auch als „nächster Nachbar“ bezeichnet) ist die Distanz zwischen zwei Clustern die minimale Distanz zwischen einer Beobachtung in einem Cluster und einer Beobachtung in einem anderen Cluster. Wenn Beobachtungen nah beieinander liegen, ermittelt die Einzelkopplung häufig lange kettenförmige Cluster, bei denen eine relativ große Distanz zwischen den Beobachtungen an beiden Enden der Kette vorliegen kann.
Die Distanz wird anhand der folgenden Distanzmatrix berechnet:
dmj = min (dkj, dlj)
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Bei der Ward-Kopplung ist die Distanz zwischen zwei Clustern die Summe der quadrierten Abweichungen von Punkten zu Zentroiden. Das Ziel der Ward-Kopplung besteht in der Minimierung der Summen der Quadrate innerhalb der Cluster. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:
Bei der Ward-Kopplung kann die Distanz zwischen zwei Clustern größer als dmax sein, was der Maximalwert in der ursprünglichen Distanzmatrix D ist. In diesem Fall ist die Ähnlichkeit negativ.
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
dkl | Distanz zwischen den Clustern k und l |
Nj | Anzahl der Beobachtungen in Cluster j |
Nk | Anzahl der Beobachtungen in Cluster k |
Nl | Anzahl der Beobachtungen in Cluster l |
Nm | Anzahl der Beobachtungen in Cluster m |