Agglomerative Verfahren für Clustervariablen

Durchschnitt

Bei der durchschnittlichen Kopplung ist die Distanz zwischen zwei Clustern die durchschnittliche Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster. Die durchschnittliche Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j
NkAnzahl der Variablen in Cluster k
NlAnzahl der Variablen in Cluster l
NmAnzahl der Variablen in Cluster m

Zentroid

Bei der Zentroidkopplung ist die Distanz zwischen zwei Clustern die Distanz zwischen den Cluster-Zentroiden bzw. -Mittelwerten. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j
NkAnzahl der Variablen in Cluster k
NlAnzahl der Variablen in Cluster l
NmAnzahl der Variablen in Cluster m

Vollständig

Bei der vollständigen Kopplung (auch als „entferntester Nachbar“ bezeichnet) ist die Distanz zwischen zwei Clustern die maximale Distanz zwischen einer Variable in einem Cluster und einer Variable in dem anderen Cluster. Die vollständige Distanz wird anhand der folgenden Distanzmatrix berechnet:

dmj = max (dkj, dlj)

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j

McQuitty

Bei der McQuitty-Kopplung wird die Distanz anhand der folgenden Distanzmatrix berechnet:

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j

Median

Bei der Median-Kopplung ist die Distanz zwischen zwei Clustern die Median-Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster. Die Median-Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dlj Distanz zwischen den Clustern l und j
dklDistanz zwischen den Clustern k und l

Einzeln

Bei der Einzelkopplungsmethode (auch als Methode des nächsten Nachbarn bezeichnet) ist die Distanz zwischen zwei Clustern die kleinste Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster.

Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

dmj = min (dkj, dlj)

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j

Ward

Bei der Ward-Kopplung ist die Distanz zwischen zwei Clustern die Summe der quadrierten Abweichungen von Punkten zu Zentroiden. Das Ziel der Ward-Kopplung besteht in der Minimierung der Summen der Quadrate innerhalb der Cluster. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

Hinweis

Bei der Ward-Kopplung kann die Distanz zwischen zwei Clustern größer als d(max) sein, was der Maximalwert in der ursprünglichen Distanzmatrix D ist. In diesem Fall ist die Ähnlichkeit negativ.

Notation

BegriffBeschreibung
dmjDistanz zwischen den Clustern m und j
mzusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
dkjDistanz zwischen den Clustern k und j
dljDistanz zwischen den Clustern l und j
dklDistanz zwischen den Clustern k und l
NjAnzahl der Variablen in Cluster j
NkAnzahl der Variablen in Cluster k
NlAnzahl der Variablen in Cluster l
NmAnzahl der Variablen in Cluster m