Geben Sie im Feld Variablen die Spalten ein, die die Messdaten enthalten.
Sie müssen über zwei oder mehr numerische Spalten verfügen. Jede Spalte stellt dabei eine andere Messung dar. Sie müssen Zeilen mit fehlenden Daten aus dem Arbeitsblatt löschen, bevor Sie dieses Verfahren verwenden. Wenn ein großer Datensatz mit vielen fehlenden Werten vorhanden ist, kann es zweckmäßiger sein, eine Teilmenge des Arbeitsblatts zu bilden, bei der Zeilen mit fehlenden Daten ausgeschlossen werden, anstatt die Zeilen manuell zu löschen. Weitere Informationen finden Sie unter Übersicht über „Teilmenge des Arbeitsblatts bilden“.
C1 | C2 | C3 | C4 | C5 |
---|---|---|---|---|
Kunden | Rendite | Umsatz | Jahre | Anfänglich |
150 | 13,5 | 50400200 | 18 | 1 |
98 | 11,7 | 45665230 | 12 | 2 |
79 | 12,0 | 19800800 | 7 | 0 |
122 | 11,4 | 42560000 | 13 | 0 |
143 | 12,4 | 47635980 | 15 | 0 |
49 | 9,8 | 22342600 | 6 | 3 |
Geben Sie die anfänglichen Clusterfestlegungen an. Die Clusterzentrenanalyse funktioniert am besten, wenn Sie gute Startpunkte für die Cluster bereitstellen. Gehen Sie bei den anfänglichen Clusterfestlegungen von Ihrem praktischen und/oder technischen Wissen über die Beobachtungen aus, die geclustert werden sollen. Weitere Informationen finden Sie unter So startet das Verfahren der Clusterzentrenanalyse.
Wählen Sie Variablen standardisieren aus, damit Minitab alle Variablen gleich gewichtet. Die Standardisierung hat sich in den meisten Fällen bewährt und ist besonders dann wichtig, wenn die Variablen verschiedene Skalen aufweisen. Angenommen, Variable A befindet sich auf einer Skala in Dollar, die von 0 bis 10.000.000 reicht, und Variable B ist ein Verhältnis auf einer Skala von 0,0 bis 1,0. Wenn die Variablen nicht standardisiert sind, wird Variable A aufgrund des größeren Wertes ihrer Skala im Clusterverfahren stärker gewichtet als Variable B, was wahrscheinlich nicht dem gewünschten Ergebnis entspricht. Deshalb sollten Variablen standardisiert werden.
Minitab standardisiert alle Variablen vor der Berechnung der Distanzmatrix durch Subtraktion der Mittelwerte und Division durch die Standardabweichung. Bei der Standardisierung von Variablen ist der Gesamtzentroid für alle Cluster gleich 0.