Bei der durchschnittlichen Kopplung ist die Distanz zwischen zwei Clustern die durchschnittliche Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster. Die durchschnittliche Distanz wird anhand der folgenden Distanzmatrix berechnet:
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Nk | Anzahl der Variablen in Cluster k |
Nl | Anzahl der Variablen in Cluster l |
Nm | Anzahl der Variablen in Cluster m |
Bei der Zentroidkopplung ist die Distanz zwischen zwei Clustern die Distanz zwischen den Cluster-Zentroiden bzw. -Mittelwerten. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Nk | Anzahl der Variablen in Cluster k |
Nl | Anzahl der Variablen in Cluster l |
Nm | Anzahl der Variablen in Cluster m |
Bei der vollständigen Kopplung (auch als „entferntester Nachbar“ bezeichnet) ist die Distanz zwischen zwei Clustern die maximale Distanz zwischen einer Variable in einem Cluster und einer Variable in dem anderen Cluster. Die vollständige Distanz wird anhand der folgenden Distanzmatrix berechnet:
dmj = max (dkj, dlj)
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Bei der McQuitty-Kopplung wird die Distanz anhand der folgenden Distanzmatrix berechnet:
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Bei der Median-Kopplung ist die Distanz zwischen zwei Clustern die Median-Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster. Die Median-Distanz wird anhand der folgenden Distanzmatrix berechnet:
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
dkl | Distanz zwischen den Clustern k und l |
Bei der Einzelkopplungsmethode (auch als Methode des nächsten Nachbarn bezeichnet) ist die Distanz zwischen zwei Clustern die kleinste Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster.
Die Distanz wird anhand der folgenden Distanzmatrix berechnet:
dmj = min (dkj, dlj)
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
Bei der Ward-Kopplung ist die Distanz zwischen zwei Clustern die Summe der quadrierten Abweichungen von Punkten zu Zentroiden. Das Ziel der Ward-Kopplung besteht in der Minimierung der Summen der Quadrate innerhalb der Cluster. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:
Bei der Ward-Kopplung kann die Distanz zwischen zwei Clustern größer als d(max) sein, was der Maximalwert in der ursprünglichen Distanzmatrix D ist. In diesem Fall ist die Ähnlichkeit negativ.
Begriff | Beschreibung |
---|---|
dmj | Distanz zwischen den Clustern m und j |
m | zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i) |
dkj | Distanz zwischen den Clustern k und j |
dlj | Distanz zwischen den Clustern l und j |
dkl | Distanz zwischen den Clustern k und l |
Nj | Anzahl der Variablen in Cluster j |
Nk | Anzahl der Variablen in Cluster k |
Nl | Anzahl der Variablen in Cluster l |
Nm | Anzahl der Variablen in Cluster m |