Agglomerative Verfahren für Clustervariablen

In diesem Thema

Durchschnitt
Zentroid
Vollständig
McQuitty

Median
Einzeln
Ward

Durchschnitt

Bei der durchschnittlichen Kopplung ist die Distanz zwischen zwei Clustern die durchschnittliche Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster. Die durchschnittliche Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

Begriff	Beschreibung
d_mj	Distanz zwischen den Clustern m und j
m	zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
d_kj	Distanz zwischen den Clustern k und j
d_lj	Distanz zwischen den Clustern l und j
N_k	Anzahl der Variablen in Cluster k
N_l	Anzahl der Variablen in Cluster l
N_m	Anzahl der Variablen in Cluster m

Zentroid

Bei der Zentroidkopplung ist die Distanz zwischen zwei Clustern die Distanz zwischen den Cluster-Zentroiden bzw. -Mittelwerten. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

Begriff	Beschreibung
d_mj	Distanz zwischen den Clustern m und j
m	zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
d_kj	Distanz zwischen den Clustern k und j
d_lj	Distanz zwischen den Clustern l und j
N_k	Anzahl der Variablen in Cluster k
N_l	Anzahl der Variablen in Cluster l
N_m	Anzahl der Variablen in Cluster m

Vollständig

Bei der vollständigen Kopplung (auch als „entferntester Nachbar“ bezeichnet) ist die Distanz zwischen zwei Clustern die maximale Distanz zwischen einer Variable in einem Cluster und einer Variable in dem anderen Cluster. Die vollständige Distanz wird anhand der folgenden Distanzmatrix berechnet:

d_mj = max (d_kj, d_lj)

Notation

Begriff	Beschreibung
d_mj	Distanz zwischen den Clustern m und j
m	zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
d_kj	Distanz zwischen den Clustern k und j
d_lj	Distanz zwischen den Clustern l und j

McQuitty

Bei der McQuitty-Kopplung wird die Distanz anhand der folgenden Distanzmatrix berechnet:

Notation

Begriff	Beschreibung
d_mj	Distanz zwischen den Clustern m und j
m	zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
d_kj	Distanz zwischen den Clustern k und j
d_lj	Distanz zwischen den Clustern l und j

Median

Bei der Median-Kopplung ist die Distanz zwischen zwei Clustern die Median-Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster. Die Median-Distanz wird anhand der folgenden Distanzmatrix berechnet:

Notation

Begriff	Beschreibung
d_mj	Distanz zwischen den Clustern m und j
m	zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
d_kj	Distanz zwischen den Clustern k und j
d_lj	Distanz zwischen den Clustern l und j
d_kl	Distanz zwischen den Clustern k und l

Einzeln

Bei der Einzelkopplungsmethode (auch als Methode des nächsten Nachbarn bezeichnet) ist die Distanz zwischen zwei Clustern die kleinste Distanz zwischen einer Variablen in einem Cluster und einer Variablen in einem anderen Cluster.

Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

d_mj = min (d_kj, d_lj)

Notation

Begriff	Beschreibung
d_mj	Distanz zwischen den Clustern m und j
m	zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
d_kj	Distanz zwischen den Clustern k und j
d_lj	Distanz zwischen den Clustern l und j

Ward

Bei der Ward-Kopplung ist die Distanz zwischen zwei Clustern die Summe der quadrierten Abweichungen von Punkten zu Zentroiden. Das Ziel der Ward-Kopplung besteht in der Minimierung der Summen der Quadrate innerhalb der Cluster. Die Distanz wird anhand der folgenden Distanzmatrix berechnet:

Hinweis

Bei der Ward-Kopplung kann die Distanz zwischen zwei Clustern größer als d(max) sein, was der Maximalwert in der ursprünglichen Distanzmatrix D ist. In diesem Fall ist die Ähnlichkeit negativ.

Notation

Begriff	Beschreibung
d_mj	Distanz zwischen den Clustern m und j
m	zusammengeführter Cluster, der aus den Clustern k und l besteht, wobei m = (k,i)
d_kj	Distanz zwischen den Clustern k und j
d_lj	Distanz zwischen den Clustern l und j
d_kl	Distanz zwischen den Clustern k und l
N_j	Anzahl der Variablen in Cluster j
N_k	Anzahl der Variablen in Cluster k
N_l	Anzahl der Variablen in Cluster l
N_m	Anzahl der Variablen in Cluster m