Überlegungen zu Daten für Clusterbeobachtungen

Befolgen Sie beim Erfassen von Daten, Durchführen der Analyse und Interpretieren der Ergebnisse die folgenden Richtlinien, um sicherzustellen, dass die Ergebnisse gültig sind.

Daten können als Rohdaten oder Matrix der Distanzen vorliegen

In der Regel verwenden Sie Rohdaten für diese Analyse. Jede Zeile enthält Messdaten für ein einziges Teil oder Prüfobjekt. Sie müssen über zwei oder mehr numerische Spalten verfügen. Jede Spalte stellt dabei eine andere Messung dar. Sie müssen Zeilen mit fehlenden Daten aus dem Arbeitsblatt löschen, bevor Sie diese Analyse verwenden.

Wenn Sie eine (n x n)-Distanzmatrix speichern, wobei n die Anzahl der Beobachtungen ist, können Sie die Matrix für die Analyse verwenden. Der Eintrag (I, j) in der Matrix ist die Distanz zwischen den Beobachtungen I und j. Wenn Sie eine Distanzmatrix verwenden, kann Minitab die Statistiken für die endgültige Partition nicht berechnen.

Die Daten müssen numerisch sein

Um die Cluster zu bilden, wird bei dieser Analyse die Distanz zwischen den Beobachtungen berechnet, die zwischen den Stufen einer kategorialen Variable nicht gemessen werden kann. Wenn Sie bei der Analyse eine kategoriale Variable verwenden möchten, müssen Sie zuerst die Textwerte in eine numerische Skala konvertieren. Ein Analytiker misst z. B. die Kundenzufriedenheit anhand der Kategorien „Sehr zufrieden“, „Zufrieden“, „Unzufrieden“ und „Sehr unzufrieden“. Um das Verfahren der Clusterbeobachtungen durchzuführen, kodiert der Analytiker diese Kategorien in +2, +1, −1, −2 neu. Die Distanzen zwischen den Beobachtungen können nun für die Analyse berechnet werden. Alternativ dazu können Sie das Arbeitsblatt in mehrere Arbeitsblätter für die einzelnen Stufen der kategorialen Variablen aufteilen und die Beobachtungen auf den einzelnen Stufen clustern. Weitere Informationen zum Aufteilen des Arbeitsblatts finden Sie unter Übersicht über „Arbeitsblatt teilen“.