Eingeben der Daten für Clusterbeobachtungen

Statistik > Multivariate Analysen > Clusterbeobachtungen

Geben Sie die Daten für Ihre Analyse an, wählen Sie das agglomerative Verfahren und das Distanzverfahen aus, geben Sie an, ob die Variablen standardisiert werden sollen, geben Sie die endgültige Partition an, und wählen Sie die Grafikoptionen aus.

Eingeben der Daten

Geben Sie im Feld Variablen oder Distanzmatrix entweder die Spalten ein, die Messdaten enthalten, oder geben Sie eine gespeicherte Distanzmatrix ein, die die Distanzen zwischen allen Beobachtungspaaren enthält.

Hinweis

Wenn Sie eine gespeicherte Distanzmatrix eingeben, kann Minitab die Statistiken für die endgültige Partition nicht berechnen.

Für Messdaten müssen Sie über mindestens zwei numerische Spalten verfügen, und jede Spalte muss eine andere Messgröße darstellen. Löschen Sie Zeilen mit fehlenden Daten aus dem Arbeitsblatt, bevor Sie diese Analyse verwenden. Wenn zu viele Zeilen mit Daten vorhanden sind, empfiehlt es sich möglicherweise, eine Teilmenge des Arbeitsblatts zu bilden, bei der Zeilen mit fehlenden Daten ausgeschlossen werden. Weitere Informationen finden Sie unter Übersicht über „Teilmenge des Arbeitsblatts bilden“.

Sie können für diese Analyse keine kategoriale Variable eingeben. Wenn eine kategoriale Variable vorliegt, müssen Sie zuerst die Textwerte in eine numerische Skala konvertieren oder für jede Stufe der kategorialen Variablen eine separate Analyse durchführen. Weitere Informationen finden Sie unter Überlegungen zu Daten für Clusterbeobachtungen.

Für eine eine gespeicherte Distanzmatrix entspricht der Eintrag in Zeile i und Spalte j der Distanzmatrix D der Distanz zwischen den Beobachtungen i und j. Informationen zum Erstellen und Verwenden von gespeicherten Matrizen in Minitab finden Sie unter Übersicht über Matrizen.

In diesem Arbeitsblatt enthält jede Spalte unterschiedliche Messwerte von Sportlern.
C1 C2 C3 C4
Geschlecht Größe Gewicht Händigkeit
2 67 155 1
1 74 193 1
2 68 152 1
1 70 172 0
1 72 169 1
2 66 134 0

Angeben des agglomerativen Verfahrens

Wählen Sie unter Agglomeratives Verfahren ein Verfahren aus, um anzugeben, wie die Distanz zwischen zwei Clustern definiert wird. Sie können verschiedene agglomerative Verfahren ausprobieren, um herauszufinden, welches Verfahren für Ihre Daten die nützlichsten Ergebnisse liefert.

Hinweis

Bei Clusterbeobachtungen bezieht sich die Distanz auf die Distanz zwischen Beobachtungen, und die Kopplung bezieht sich auf die Distanz zwischen den Clustern von Beobachtungen. Bei Clustervariablen bezieht sich die Distanz auf die Distanz zwischen Variablen, und die Kopplung bezieht sich auf die Distanz zwischen den Clustern von Variablen.

Durchschnitt
Die Distanz zwischen zwei Clustern ist die durchschnittliche Distanz zwischen einer Beobachtung (oder Variablen) in einem Cluster und einer Beobachtung (oder Variablen) in einem anderen Cluster. Während die Einzelkopplung und die vollständige Kopplung auf Distanzen zwischen einzelnen Paaren basiert, wird bei der durchschnittlichen Kopplung ein zentraleres Maß der Lage verwendet.
Zentroid
Die Distanz zwischen zwei Clustern ist die Distanz zwischen den Cluster-Zentroiden bzw. -Mittelwerten. Wie bei der durchschnittlichen Kopplung handelt es sich hierbei um eine Durchschnittsmethode.
Vollständig
Die Distanz zwischen zwei Clustern ist die maximale Distanz zwischen einer Beobachtung (oder Variablen) in einem Cluster und einer Beobachtung (oder Variablen) in einem anderen Cluster. Mit dieser Methode (auch als „entferntester Nachbar“ bezeichnet) wird sichergestellt, dass sich alle Beobachtungen (oder Variablen) in einem Cluster innerhalb einer maximalen Distanz befinden. Häufig werden Cluster mit ähnlichen Durchmessern erzeugt. Die Ergebnisse werden jedoch stark von Ausreißern beeinflusst.
McQuitty
Die Distanz des neuen Clusters zu den anderen Clustern wird als Durchschnitt der Distanzen zwischen den nun zusammenzuführenden Clustern und einem anderen Cluster errechnet. Wenn z. B. die Cluster 1 und 3 zum neuen Cluster 1* zusammengefasst werden sollen, ist die Distanz von 1* zu Cluster 4 der Durchschnitt der Distanzen von 1 zu 4 und 3 zu 4. Bei dieser Methode ist die Distanz von einer Kombination von Clustern und nicht von einzelnen Beobachtungen (oder Variablen) in den Clustern abhängig.
Median
Die Distanz zwischen zwei Clustern ist die Median-Distanz zwischen einer Beobachtung (oder Variablen) in einem Cluster und einer Beobachtung (oder Variablen) in einem anderen Cluster. Da bei dieser Durchschnittsmethode der Median anstelle des Mittelwerts verwendet wird, sind die Auswirkungen von Ausreißern geringer.
Einfach
Die Distanz zwischen zwei Clustern ist die minimale Distanz zwischen einer Beobachtung (oder Variablen) in einem Cluster und einer Beobachtung (oder Variablen) in einem anderen Cluster. Diese Methode (auch als „nächster Nachbar“ bezeichnet) ist eine gute Wahl, wenn Cluster offensichtlich getrennt sind. Wenn Beobachtungen (oder Variablen) nah beieinander liegen, ermittelt die Einzelkopplung häufig lange kettenförmige Cluster, bei denen eine relativ große Distanz zwischen den Beobachtungen an beiden Enden der Kette vorliegen kann.
Ward
Die Distanz zwischen zwei Clustern ist die Summe der quadrierten Abweichungen von Punkten zu Zentroiden. Der Zweck der Ward-Kopplung besteht in der Minimierung der Summen der Quadrate innerhalb der Cluster. Häufig werden bei dieser Methode Cluster mit ähnlicher Anzahl von Beobachtungen (oder Variablen) erzeugt, aber sie ist gegenüber Ausreißern empfindlich. Außerdem kann die Distanz zwischen zwei Clustern größer als d(max) sein, der maximale Wert in der ursprünglichen Distanzmatrix. In diesem Fall ist der Ähnlichkeitswert negativ.

Angeben des Distanzmaßes

Wählen Sie unter Distanzmaß die Methode zur Berechnung der Distanz zwischen Beobachtungspaaren aus.
Euklidisch
Das am häufigsten verwendete Maß für die Distanz, bei dem die Quadratwurzel der Summe der quadrierten Differenzen berechnet wird.
Euklidisch quadriert
Das Quadrat der Distanz, das anhand der euklidischen Methode berechnet wird. Bei dieser Methode werden Ausreißer stärker gewichtet.
Pearson
Die Quadratwurzel der Summe der quadrierten Distanzen dividiert durch die Varianzen. Diese Methode resultiert in gleichen Varianzen, und sie wird zur Standardisierung verwendet.
Pearson quadriert
Das Quadrat der Distanz, das anhand der Pearson-Methode berechnet wird. Bei dieser Methode werden Ausreißer stärker gewichtet, und die Varianzen werden einander angeglichen.
Manhattan
Die Summe der absoluten Distanzen. Bei dieser Methode werden Ausreißer schwächer gewichtet.
Tipp

Wenn Sie Durchschnitt, Zentroid, Median oder Ward als agglomeratives Verfahrens ausgewählt haben, sollten Sie in der Regel auch eines der Maße für quadrierte Distanzen verwenden.

Variablen standardisieren

Wählen Sie Variablen standardisieren aus, damit Minitab alle Variablen gleich gewichtet. Die Standardisierung hat sich in den meisten Fällen bewährt und ist besonders dann wichtig, wenn die Variablen verschiedene Skalen aufweisen. Angenommen, Variable A befindet sich auf einer Skala in Dollar, die von 0 bis 10.000.000 reicht, und Variable B ist ein Verhältnis auf einer Skala von 0,0 bis 1,0. Wenn die Variablen nicht standardisiert sind, wird Variable A aufgrund des größeren Wertes ihrer Skala im Verfahren für Clusterbeobachtungen stärker gewichtet als Variable B, was wahrscheinlich nicht dem gewünschten Ergebnis entspricht. Deshalb sollten Variablen standardisiert werden.

Wenn Sie die Variablen standardisieren, setzt Minitab alle Mittelwerte gleich 0 und alle Varianzen gleich 1. Um nur die Varianzen gleichzusetzen, wählen Sie nicht die Option zum Standardisieren aus, sondern unter Distanzmaß entweder Pearson oder Pearson quadriert.

Angeben der endgültigen Partition

Geben Sie die Kriterien zur Bestimmung der endgültigen Gruppierungen an.
  • Anzahl der Cluster: Wählen Sie diese Option aus, um die Anzahl der Cluster für die endgültige Partition einzugeben.
  • Ähnlichkeitsniveau: Wählen Sie diese Option aus, um das Ähnlichkeitsniveau für die Cluster in der endgültigen Partition einzugeben.

Um optimale Ergebnisse zu erzielen, sollten Sie bei den Kriterien flexibel sein. Wenn Sie z. B. die endgültige Partition über die Anzahl der Cluster definieren, sollten Sie auch Änderungen des Ähnlichkeitsniveaus in Betracht ziehen. Ein steiler Abfall des Ähnlichkeitsniveaus beim Hinzufügen eines bestimmten Clusters kann ein Grund dafür sein, die endgültige Partition vor dieser Gruppierung festzulegen. Wenn Sie andersherum die endgültige Partition über das Ähnlichkeitsniveau definieren, stellen Sie möglicherweise fest, dass sich die Ähnlichkeitsniveaus über einen Bereich von Clustern kaum ändern, so dass Sie sich aus Gründen der Übersichtlichkeit für den Schritt mit der geringsten Clusteranzahl entscheiden.

Hinweis

Wenn Sie nicht wissen, welchen Wert Sie zum Festlegen der endgültigen Partition eingeben sollen, führen Sie die Analyse zuerst mit der Standardeinstellung durch (1 Cluster in der endgültigen Partition). Minitab zeigt die Ergebnisse für alle möglichen Clusteranzahlen an. Bestimmen Sie anhand der Ergebnisse einen Wert, den Sie für die endgültige Partition eingeben können. Wiederholen Sie dann die Analyse, und geben Sie die von Ihnen ermittelte endgültige Partition ein. Weitere Informationen finden Sie unter Bestimmen der endgültigen Gruppierung von Clustern.

Dendrogramm anzeigen

Wählen Sie diese Option aus, damit in einem Baumdiagramm veranschaulicht wird, wie die Cluster in den einzelnen Schritten des Fusionierungsprozesses gebildet wurden. Im Dendrogramm können Sie die Ähnlichkeitswerte (oder Distanzwerte) für die Cluster in jedem Schritt anzeigen.

Um die standardmäßige Darstellung des Dendrogramms zu ändern, klicken Sie auf Anpassen.