Überlegungen zu Daten für Clustervariablen

Befolgen Sie beim Erfassen von Daten, Durchführen der Analyse und Interpretieren der Ergebnisse die folgenden Richtlinien, um sicherzustellen, dass die Ergebnisse gültig sind.

Daten können als Rohdaten oder Matrix der Distanzen vorliegen

In der Regel verwenden Sie Rohdaten für diese Analyse. Jede Zeile enthält Messdaten für ein einziges Teil oder Prüfobjekt. Sie müssen über zwei oder mehr numerische Spalten verfügen. Jede Spalte stellt dabei eine andere Messung dar. Sie müssen Zeilen mit fehlenden Daten aus dem Arbeitsblatt löschen, bevor Sie diese Analyse verwenden.

Wenn Sie eine (p x p)-Distanzmatrix speichern, wobei p die Anzahl der Variablen ist, können Sie die Matrix für die Analyse verwenden. Der Eintrag (i, j) in der Matrix ist die Distanz zwischen den Beobachtungen i und j. Wenn Sie eine Distanzmatrix verwenden, kann Minitab die Statistiken für die endgültige Partition nicht berechnen.

Die Daten müssen numerisch sein

Um die Cluster zu bilden, wird bei dieser Analyse die Distanz zwischen den Variablen berechnet, die zwischen den Stufen einer kategorialen Variablen nicht gemessen werden kann. Wenn Sie bei der Analyse eine kategoriale Variable verwenden möchten, müssen Sie zuerst die Textwerte in eine numerische Skala konvertieren. Ein Analytiker misst z. B. die Kundenzufriedenheit anhand der Kategorien „Sehr zufrieden“, „Zufrieden“, „Unzufrieden“ und „Sehr unzufrieden“. Um das Verfahren der Clustervariablen durchzuführen, kodiert der Analytiker diese Kategorien in +2, +1, −1, −2 neu. Die Distanzen zwischen den Variablen können nun für die Analyse berechnet werden. Alternativ dazu können Sie das Arbeitsblatt in mehrere Arbeitsblätter für die einzelnen Stufen der kategorialen Variablen aufteilen und die Variablen auf den einzelnen Stufen clustern. Weitere Informationen zum Aufteilen des Arbeitsblatts finden Sie unter Übersicht über Arbeitsblatt teilen.