Eingeben der Daten für Clusterzentrenanalyse

Statistik > Multivariate Analysen > Clusterzentrenanalyse

Eingeben der Daten

Geben Sie im Feld Variablen die Spalten ein, die die Messdaten enthalten.

Sie müssen über zwei oder mehr numerische Spalten verfügen. Jede Spalte stellt dabei eine andere Messung dar. Sie müssen Zeilen mit fehlenden Daten aus dem Arbeitsblatt löschen, bevor Sie dieses Verfahren verwenden. Wenn ein großer Datensatz mit vielen fehlenden Werten vorhanden ist, kann es zweckmäßiger sein, eine Teilmenge des Arbeitsblatts zu bilden, bei der Zeilen mit fehlenden Daten ausgeschlossen werden, anstatt die Zeilen manuell zu löschen. Weitere Informationen finden Sie unter Übersicht über „Teilmenge des Arbeitsblatts bilden“.

In diesem Arbeitsblatt enthalten die Spalten C1 bis C4 Messwerte für jede Variable, die ein Merkmal eines Unternehmens beschreibt. Die Spalte Anfang gibt die anfängliche Clusterzugehörigkeit der Beobachtungen an. Beachten Sie, dass bei der Festlegung der anfänglichen Cluster (1, 2 und 3) nur Werte ungleich 0 in der Spalte „Anfänglich“ berücksichtigt werden. Die verbleibenden Beobachtungen mit dem Anfangswert 0 werden anfänglich keinem Cluster zugeordnet, sondern erst später durch den Clusteralgorithmus dem Cluster zugeordnet, dessen Cluster-Zentroid sie am nächsten liegen.
C1 C2 C3 C4 C5
Kunden Rendite Umsatz Jahre Anfänglich
150 13,5 50400200 18 1
98 11,7 45665230 12 2
79 12,0 19800800 7 0
122 11,4 42560000 13 0
143 12,4 47635980 15 0
49 9,8 22342600 6 3

Angeben der anfänglichen Partition

Geben Sie die anfänglichen Clusterfestlegungen an. Die Clusterzentrenanalyse funktioniert am besten, wenn Sie gute Startpunkte für die Cluster bereitstellen. Gehen Sie bei den anfänglichen Clusterfestlegungen von Ihrem praktischen und/oder technischen Wissen über die Beobachtungen aus, die geclustert werden sollen. Weitere Informationen finden Sie unter So startet das Verfahren der Clusterzentrenanalyse.

  • Anzahl der Cluster: Wählen Sie diese Option aus, wenn Ihnen vorab keine Kenntnisse über die anfänglichen Cluster vorliegen. Geben Sie einen Wert für die Anzahl der zu bildenden Cluster ein. Die anfänglichen Cluster entsprechen den ersten Datenzeilen im Arbeitsblatt. Wenn Sie z. B. 3 eingeben, sind die ersten drei Datenzeilen die anfänglichen Cluster-Zentroiden.
  • Spalte für Anfangspartition: Wählen Sie diese Option aus, um eine Spalte anzugeben, die die anfänglichen Clusterzugehörigkeiten angibt. Verwenden Sie positive ganze Zahlen für die Beobachtungen, die die anfänglichen Cluster definieren, und Nullen für alle übrigen Beobachtungen.

Variablen standardisieren

Wählen Sie Variablen standardisieren aus, damit Minitab alle Variablen gleich gewichtet. Die Standardisierung hat sich in den meisten Fällen bewährt und ist besonders dann wichtig, wenn die Variablen verschiedene Skalen aufweisen. Angenommen, Variable A befindet sich auf einer Skala in Dollar, die von 0 bis 10.000.000 reicht, und Variable B ist ein Verhältnis auf einer Skala von 0,0 bis 1,0. Wenn die Variablen nicht standardisiert sind, wird Variable A aufgrund des größeren Wertes ihrer Skala im Clusterverfahren stärker gewichtet als Variable B, was wahrscheinlich nicht dem gewünschten Ergebnis entspricht. Deshalb sollten Variablen standardisiert werden.

Minitab standardisiert alle Variablen vor der Berechnung der Distanzmatrix durch Subtraktion der Mittelwerte und Division durch die Standardabweichung. Bei der Standardisierung von Variablen ist der Gesamtzentroid für alle Cluster gleich 0.