Geben Sie die Daten für Ihre Analyse an, wählen Sie das agglomerative Verfahren und das Distanzverfahen aus, geben Sie an, ob die Variablen standardisiert werden sollen, geben Sie die endgültige Partition an, und wählen Sie die Grafikoptionen aus.
Geben Sie im Feld Variablen oder Distanzmatrix entweder die Spalten ein, die Messdaten enthalten, oder geben Sie eine gespeicherte Distanzmatrix ein, die die Distanzen zwischen allen Beobachtungspaaren enthält.
Wenn Sie eine gespeicherte Distanzmatrix eingeben, kann Minitab die Statistiken für die endgültige Partition nicht berechnen.
Für Messdaten müssen Sie über mindestens zwei numerische Spalten verfügen, und jede Spalte muss eine andere Messgröße darstellen. Löschen Sie Zeilen mit fehlenden Daten aus dem Arbeitsblatt, bevor Sie diese Analyse verwenden. Wenn zu viele Zeilen mit Daten vorhanden sind, empfiehlt es sich möglicherweise, eine Teilmenge des Arbeitsblatts zu bilden, bei der Zeilen mit fehlenden Daten ausgeschlossen werden. Weitere Informationen finden Sie unter Übersicht über „Teilmenge des Arbeitsblatts bilden“.
Sie können für diese Analyse keine kategoriale Variable eingeben. Wenn eine kategoriale Variable vorliegt, müssen Sie zuerst die Textwerte in eine numerische Skala konvertieren oder für jede Stufe der kategorialen Variablen eine separate Analyse durchführen. Weitere Informationen finden Sie unter Überlegungen zu Daten für Clusterbeobachtungen.
Für eine eine gespeicherte Distanzmatrix entspricht der Eintrag in Zeile i und Spalte j der Distanzmatrix D der Distanz zwischen den Beobachtungen i und j. Informationen zum Erstellen und Verwenden von gespeicherten Matrizen in Minitab finden Sie unter Übersicht über Matrizen.
C1 | C2 | C3 | C4 |
---|---|---|---|
Geschlecht | Größe | Gewicht | Händigkeit |
2 | 67 | 155 | 1 |
1 | 74 | 193 | 1 |
2 | 68 | 152 | 1 |
1 | 70 | 172 | 0 |
1 | 72 | 169 | 1 |
2 | 66 | 134 | 0 |
Wählen Sie unter Agglomeratives Verfahren ein Verfahren aus, um anzugeben, wie die Distanz zwischen zwei Clustern definiert wird. Sie können verschiedene agglomerative Verfahren ausprobieren, um herauszufinden, welches Verfahren für Ihre Daten die nützlichsten Ergebnisse liefert.
Bei Clusterbeobachtungen bezieht sich die Distanz auf die Distanz zwischen Beobachtungen, und die Kopplung bezieht sich auf die Distanz zwischen den Clustern von Beobachtungen. Bei Clustervariablen bezieht sich die Distanz auf die Distanz zwischen Variablen, und die Kopplung bezieht sich auf die Distanz zwischen den Clustern von Variablen.
Wenn Sie Durchschnitt, Zentroid, Median oder Ward als agglomeratives Verfahrens ausgewählt haben, sollten Sie in der Regel auch eines der Maße für quadrierte Distanzen verwenden.
Wählen Sie Variablen standardisieren aus, damit Minitab alle Variablen gleich gewichtet. Die Standardisierung hat sich in den meisten Fällen bewährt und ist besonders dann wichtig, wenn die Variablen verschiedene Skalen aufweisen. Angenommen, Variable A befindet sich auf einer Skala in Dollar, die von 0 bis 10.000.000 reicht, und Variable B ist ein Verhältnis auf einer Skala von 0,0 bis 1,0. Wenn die Variablen nicht standardisiert sind, wird Variable A aufgrund des größeren Wertes ihrer Skala im Verfahren für Clusterbeobachtungen stärker gewichtet als Variable B, was wahrscheinlich nicht dem gewünschten Ergebnis entspricht. Deshalb sollten Variablen standardisiert werden.
Wenn Sie die Variablen standardisieren, setzt Minitab alle Mittelwerte gleich 0 und alle Varianzen gleich 1. Um nur die Varianzen gleichzusetzen, wählen Sie nicht die Option zum Standardisieren aus, sondern unter Distanzmaß entweder Pearson oder Pearson quadriert.
Um optimale Ergebnisse zu erzielen, sollten Sie bei den Kriterien flexibel sein. Wenn Sie z. B. die endgültige Partition über die Anzahl der Cluster definieren, sollten Sie auch Änderungen des Ähnlichkeitsniveaus in Betracht ziehen. Ein steiler Abfall des Ähnlichkeitsniveaus beim Hinzufügen eines bestimmten Clusters kann ein Grund dafür sein, die endgültige Partition vor dieser Gruppierung festzulegen. Wenn Sie andersherum die endgültige Partition über das Ähnlichkeitsniveau definieren, stellen Sie möglicherweise fest, dass sich die Ähnlichkeitsniveaus über einen Bereich von Clustern kaum ändern, so dass Sie sich aus Gründen der Übersichtlichkeit für den Schritt mit der geringsten Clusteranzahl entscheiden.
Wenn Sie nicht wissen, welchen Wert Sie zum Festlegen der endgültigen Partition eingeben sollen, führen Sie die Analyse zuerst mit der Standardeinstellung durch (1 Cluster in der endgültigen Partition). Minitab zeigt die Ergebnisse für alle möglichen Clusteranzahlen an. Bestimmen Sie anhand der Ergebnisse einen Wert, den Sie für die endgültige Partition eingeben können. Wiederholen Sie dann die Analyse, und geben Sie die von Ihnen ermittelte endgültige Partition ein. Weitere Informationen finden Sie unter Bestimmen der endgültigen Gruppierung von Clustern.
Wählen Sie diese Option aus, damit in einem Baumdiagramm veranschaulicht wird, wie die Cluster in den einzelnen Schritten des Fusionierungsprozesses gebildet wurden. Im Dendrogramm können Sie die Ähnlichkeitswerte (oder Distanzwerte) für die Cluster in jedem Schritt anzeigen.
Um die standardmäßige Darstellung des Dendrogramms zu ändern, klicken Sie auf Anpassen.