Agglomerative Verfahren für Clusterbeobachtungen

Durchschnitt

Bei der durchschnittlichen Kopplung ist die Distanz zwischen zwei Clustern die durchschnittliche Distanz zwischen einer Beobachtung in einem Cluster und einer Beobachtung in dem anderen Cluster. Die durchschnittliche Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j
NkAnzahl der Beobachtungen in Cluster k
NlAnzahl der Beobachtungen in Cluster l
NmAnzahl der Beobachtungen in Cluster m

Zentroid

Bei der Zentroidkopplung ist die Distanz zwischen zwei Clustern die Distanz zwischen den Cluster-Zentroiden bzw. -Mittelwerten. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j
NkAnzahl der Beobachtungen in Cluster k
NlAnzahl der Beobachtungen in Cluster l
NmAnzahl der Beobachtungen in Cluster m

Vollständig

Bei der vollständigen Kopplung (auch als „entferntester Nachbar“ bezeichnet) ist die Distanz zwischen zwei Clustern die maximale Distanz zwischen einer Beobachtung in einem Cluster und einer Beobachtung in dem anderen Cluster. Die vollständige Distanz wird anhand der folgenden Distanzmatrix berechnet:

dmj = max (dkj, dlj)

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j

McQuitty

Bei der McQuitty-Kopplung wird die Distanz anhand der folgenden Distanzmatrix berechnet:

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j

Median

Bei der Median-Kopplung ist die Distanz zwischen zwei Clustern die Median-Distanz zwischen einer Beobachtung in einem Cluster und einer Beobachtung in dem anderen Cluster. Die Median-Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

BegriffBeschreibung
dmj Distanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dlj Distanz zwischen den Clustern l und j
dklDistanz zwischen den Clustern k und l

Einzeln

Bei der Einzelkopplung (auch als „nächster Nachbar“ bezeichnet) ist die Distanz zwischen zwei Clustern die minimale Distanz zwischen einer Beobachtung in einem Cluster und einer Beobachtung in einem anderen Cluster. Wenn Beobachtungen nah beieinander liegen, ermittelt die Einzelkopplung häufig lange kettenförmige Cluster, bei denen eine relativ große Distanz zwischen den Beobachtungen an beiden Enden der Kette vorliegen kann.

Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

dmj = min (dkj, dlj)

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j

Ward

Bei der Ward-Kopplung ist die Distanz zwischen zwei Clustern die Summe der quadrierten Abweichungen von Punkten zu Zentroiden. Das Ziel der Ward-Kopplung besteht in der Minimierung der Summen der Quadrate innerhalb der Cluster. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

Hinweis

Bei der Ward-Kopplung kann die Distanz zwischen zwei Clustern größer als dmax sein, was der Maximalwert in der ursprünglichen Distanzmatrix D ist. In diesem Fall ist die Ähnlichkeit negativ.

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j
dklDistanz zwischen den Clustern k und l
NjAnzahl der Beobachtungen in Cluster j
NkAnzahl der Beobachtungen in Cluster k
NlAnzahl der Beobachtungen in Cluster l
NmAnzahl der Beobachtungen in Cluster m