Eingeben der Daten für Clustervariablen

Statistik > Multivariate Analysen > Clustervariablen

In diesem Thema

Eingeben der Daten
Angeben des agglomerativen Verfahrens
Angeben des Distanzmaßes
Angeben der endgültigen Partition
Dendrogramm anzeigen

Eingeben der Daten

Geben Sie im Feld Variablen oder Distanzmatrix entweder die Spalten ein, die die Messdaten enthalten, oder geben Sie eine gespeicherte Distanzmatrix ein, die die Distanzen zwischen allen Variablenpaaren enthält.

Hinweis

Wenn Sie eine gespeicherte Distanzmatrix eingeben, kann Minitab die Statistiken für die endgültige Partition nicht berechnen.

Für Messdaten müssen Sie über mindestens zwei numerische Spalten verfügen, und jede Spalte muss eine andere Messgröße darstellen. Löschen Sie Zeilen mit fehlenden Daten aus dem Arbeitsblatt, bevor Sie diese Analyse verwenden. Wenn zu viele Zeilen mit Daten vorhanden sind, empfiehlt es sich möglicherweise, eine Teilmenge des Arbeitsblatts zu bilden, bei der Zeilen mit fehlenden Daten ausgeschlossen werden. Weitere Informationen finden Sie unter Übersicht über „Teilmenge des Arbeitsblatts bilden“.

Sie können für diese Analyse keine kategoriale Variable eingeben. Wenn eine kategoriale Variable vorliegt, müssen Sie zuerst die Textwerte in eine numerische Skala konvertieren oder für jede Stufe der kategorialen Variablen eine separate Analyse durchführen. Weitere Informationen finden Sie unter Überlegungen zu Daten für Clustervariablen.

Für die gespeicherte Distanzmatrix entspricht der Eintrag in Zeile i und Spalte j der Distanzmatrix D der Distanz zwischen den Variablen i und j. Informationen zum Erstellen und Verwenden von gespeicherten Matrizen in Minitab finden Sie unter Übersicht über Matrizen.

In diesem Arbeitsblatt enthält jede Spalte Messwerte zu verschiedenen Variablen, die in verschiedenen Städten weltweit erfasst wurden und die möglicherweise im Zusammenhang mit Hochschulzulassungsquoten stehen. Zu den Variablen gehören die Anzahl verkaufter Zeitungen, Radios und Fernsehgeräte pro 1.000 Einwohner in verschiedenen Städten, die Alphabetisierungsrate sowie das Vorhandensein einer Universität. Die Forscher möchten die Anzahl der Variablen reduzieren, indem Sie Variablen zusammenfassen, die auf ähnlichen Merkmalen beruhen.

C1	C2	C3	C4	C5
Zeitung	Radio	Fernsehgeräte	Alphabetisierungsrate	Universität
279	267	227	0,98	1
143	112	332	0,94	1
9	113	7	0,25	0
391	314	566	0,99	1
112	48	423	0,82	1
67	66	134	0,45	0

Angeben des agglomerativen Verfahrens

Wählen Sie unter Agglomeratives Verfahren ein Verfahren aus, um anzugeben, wie die Distanz zwischen zwei Clustern definiert wird. Sie können verschiedene agglomerative Verfahren ausprobieren, um herauszufinden, welches Verfahren für Ihre Daten die nützlichsten Ergebnisse liefert.

Hinweis

Bei Clusterbeobachtungen bezieht sich die Distanz auf die Distanz zwischen Beobachtungen, und die Kopplung bezieht sich auf die Distanz zwischen den Clustern von Beobachtungen. Bei Clustervariablen bezieht sich die Distanz auf die Distanz zwischen Variablen, und die Kopplung bezieht sich auf die Distanz zwischen den Clustern von Variablen.

Durchschnitt: Die Distanz zwischen zwei Clustern ist die durchschnittliche Distanz zwischen einer Beobachtung (oder Variablen) in einem Cluster und einer Beobachtung (oder Variablen) in einem anderen Cluster. Während die Einzelkopplung und die vollständige Kopplung auf Distanzen zwischen einzelnen Paaren basiert, wird bei der durchschnittlichen Kopplung ein zentraleres Maß der Lage verwendet.
Zentroid: Die Distanz zwischen zwei Clustern ist die Distanz zwischen den Cluster-Zentroiden bzw. -Mittelwerten. Wie bei der durchschnittlichen Kopplung handelt es sich hierbei um eine Durchschnittsmethode.
Vollständig: Die Distanz zwischen zwei Clustern ist die maximale Distanz zwischen einer Beobachtung (oder Variablen) in einem Cluster und einer Beobachtung (oder Variablen) in einem anderen Cluster. Mit dieser Methode (auch als „entferntester Nachbar“ bezeichnet) wird sichergestellt, dass sich alle Beobachtungen (oder Variablen) in einem Cluster innerhalb einer maximalen Distanz befinden. Häufig werden Cluster mit ähnlichen Durchmessern erzeugt. Die Ergebnisse werden jedoch stark von Ausreißern beeinflusst.
McQuitty: Die Distanz des neuen Clusters zu den anderen Clustern wird als Durchschnitt der Distanzen zwischen den nun zusammenzuführenden Clustern und einem anderen Cluster errechnet. Wenn z. B. die Cluster 1 und 3 zum neuen Cluster 1* zusammengefasst werden sollen, ist die Distanz von 1* zu Cluster 4 der Durchschnitt der Distanzen von 1 zu 4 und 3 zu 4. Bei dieser Methode ist die Distanz von einer Kombination von Clustern und nicht von einzelnen Beobachtungen (oder Variablen) in den Clustern abhängig.
Median: Die Distanz zwischen zwei Clustern ist die Median-Distanz zwischen einer Beobachtung (oder Variablen) in einem Cluster und einer Beobachtung (oder Variablen) in einem anderen Cluster. Da bei dieser Durchschnittsmethode der Median anstelle des Mittelwerts verwendet wird, sind die Auswirkungen von Ausreißern geringer.
Einfach: Die Distanz zwischen zwei Clustern ist die minimale Distanz zwischen einer Beobachtung (oder Variablen) in einem Cluster und einer Beobachtung (oder Variablen) in einem anderen Cluster. Diese Methode (auch als „nächster Nachbar“ bezeichnet) ist eine gute Wahl, wenn Cluster offensichtlich getrennt sind. Wenn Beobachtungen (oder Variablen) nah beieinander liegen, ermittelt die Einzelkopplung häufig lange kettenförmige Cluster, bei denen eine relativ große Distanz zwischen den Beobachtungen an beiden Enden der Kette vorliegen kann.
Ward: Die Distanz zwischen zwei Clustern ist die Summe der quadrierten Abweichungen von Punkten zu Zentroiden. Der Zweck der Ward-Kopplung besteht in der Minimierung der Summen der Quadrate innerhalb der Cluster. Häufig werden bei dieser Methode Cluster mit ähnlicher Anzahl von Beobachtungen (oder Variablen) erzeugt, aber sie ist gegenüber Ausreißern empfindlich. Außerdem kann die Distanz zwischen zwei Clustern größer als d(max) sein, der maximale Wert in der ursprünglichen Distanzmatrix. In diesem Fall ist der Ähnlichkeitswert negativ.

Angeben des Distanzmaßes

Wählen Sie unter Distanzmaß die Methode zur Berechnung der Distanz zwischen Variablen aus.

Korrelation: Die Korrelationsmethode ergibt Distanzen zwischen 0 und 1 bei positiven Korrelationen und zwischen 1 und 2 bei negativen Korrelationen. Wenn es sinnvoll erscheint, negativ korrelierte Daten als weiter auseinander liegend als positiv korrelierte Daten zu betrachten, verwenden Sie die Korrelationsmethode.
Absolute Korrelation: Die absolute Korrelationsmethode ergibt Distanzen zwischen 0 und 1. Wenn Sie der Meinung sind, dass nicht das Vorzeichen, sondern die Stärke der Beziehung für die Betrachtung der Distanz entscheidend ist, verwenden Sie die absolute Korrelationsmethode.

Angeben der endgültigen Partition

Geben Sie die Kriterien zur Bestimmung der endgültigen Gruppierungen an.

Anzahl der Cluster: Wählen Sie diese Option aus, um die Anzahl der Cluster für die endgültige Partition einzugeben.
Ähnlichkeitsniveau: Wählen Sie diese Option aus, um das Ähnlichkeitsniveau für die Cluster in der endgültigen Partition einzugeben.

Um optimale Ergebnisse zu erzielen, sollten Sie bei den Kriterien flexibel sein. Wenn Sie z. B. die endgültige Partition über die Anzahl der Cluster definieren, sollten Sie auch Änderungen des Ähnlichkeitsniveaus in Betracht ziehen. Ein steiler Abfall des Ähnlichkeitsniveaus beim Hinzufügen eines bestimmten Clusters kann ein Grund dafür sein, die endgültige Partition vor dieser Gruppierung festzulegen. Wenn Sie andersherum die endgültige Partition über das Ähnlichkeitsniveau definieren, stellen Sie möglicherweise fest, dass sich die Ähnlichkeitsniveaus über einen Bereich von Clustern kaum ändern, so dass Sie sich aus Gründen der Übersichtlichkeit für den Schritt mit der geringsten Clusteranzahl entscheiden.

Hinweis

Wenn Sie nicht wissen, welchen Wert Sie zum Festlegen der endgültigen Partition eingeben sollen, führen Sie die Analyse zuerst mit der Standardeinstellung durch (1 Cluster in der endgültigen Partition). Minitab zeigt die Ergebnisse für alle möglichen Clusteranzahlen an. Bestimmen Sie anhand der Ergebnisse einen Wert, den Sie für die endgültige Partition eingeben können. Wiederholen Sie dann die Analyse, und geben Sie die von Ihnen ermittelte endgültige Partition ein. Weitere Informationen finden Sie unter Bestimmen der endgültigen Gruppierung von Clustern.

Dendrogramm anzeigen

Wählen Sie diese Option aus, damit in einem Baumdiagramm veranschaulicht wird, wie die Cluster in den einzelnen Schritten des Fusionierungsprozesses gebildet wurden. Im Dendrogramm können Sie die Ähnlichkeitswerte (oder Distanzwerte) für die Cluster in jedem Schritt anzeigen.

Um die standardmäßige Darstellung des Dendrogramms zu ändern, klicken Sie auf Anpassen.