Bei der Clusterzentrenanalyse werden die Beobachtungen zunächst in eine zuvor festgelegte Anzahl von Clustern gruppiert.
- Minitab wertet jede Beobachtung aus und verschiebt diese in den nächsten Cluster. Der nächste Cluster ist derjenige, der die kleinste euklidische Distanz zwischen der Beobachtung und dem Zentroiden des Clusters aufweist.
- Wenn sich ein Cluster durch Ausschließen oder Einbinden einer Beobachtung ändert, berechnet Minitab den Cluster-Zentroiden neu.
- Dieser Vorgang wird wiederholt, bis keine Beobachtungen mehr in einen anderen Cluster verschoben werden können. Zu diesem Zeitpunkt befinden sich alle Beobachtungen im jeweils nächsten Cluster gemäß dem vorherigen Kriterium.
Anders als beim Erstellen eines hierarchischen Clusters von Beobachtungen können zwei Beobachtungen nach dem Zusammenfassen in zwei unterschiedliche Cluster geteilt werden.
Die Clusterzentrenanalyse funktioniert am besten, wenn Sie gute Anfangspunkte für die Cluster bereitstellen. Es gibt zwei Möglichkeiten zum Starten des Clustervorgangs: das Angeben der Anzahl der Cluster oder das Angeben einer Spalte für die Anfangspartition mit Gruppenkodes.
Sie können den Vorgang auch starten, wenn Ihnen keine vollständigen Informationen vorliegen, um die Daten am Anfang zu partitionieren. Angenommen, Sie wissen, dass die endgültige Partition aus drei Gruppen bestehen soll und dass die Beobachtungen 2, 5 und 9 jeweils in eine dieser Gruppen gehören. Die weitere Vorgehensweise hängt nun davon ab, ob Sie die Anzahl der Cluster oder eine Spalte für die Anfangspartition angeben.
- Wenn Sie die Anzahl der Cluster angeben, müssen Sie die Daten im Arbeitsblatt neu anordnen, sodass die Beobachtungen 2, 5 und 9 an den Anfang des Arbeitsblatts verschoben werden. Dann geben Sie als Anzahl der Cluster 3 ein.
- Wenn Sie eine Spalte für die Anfangspartition eingeben, müssen Sie die Daten im Arbeitsblatt nicht neu anordnen. Geben Sie in der Arbeitsblattspalte für die Anfangspartition die Gruppennummern 1, 2 und 3 für die Beobachtungen 2, 5 und 9 ein, und geben Sie für die anderen Beobachtungen 0 ein.
Die endgültige Partition ist in gewissem Maße von der Anfangspartition abhängig, die Minitab verwendet. Sie können unterschiedliche Anfangspartitionen ausprobieren. Nach Milligan funktioniert die Clusterzentrenanalyse möglicherweise weniger gut, wenn die Initialisierungen beliebig vorgenommen werden. Wenn Sie jedoch gute Anfangspunkte bereitstellen, kann die Clusterzentrenanalyse recht robust sein.