Interpretieren aller Statistiken und Grafiken für Hauptkomponentenanalyse

Hier finden Sie Definitionen und Anleitungen zur Interpretation für alle Statistiken und Grafiken, die für die Hauptkomponentenanalyse bereitgestellt werden.

Eigenwert

Die Eigenwerte (die auch als charakteristische Werte oder latente Wurzeln bezeichnet werden) sind die Varianzen der Hauptkomponenten.

Interpretation

Sie können die Anzahl der Hauptkomponenten anhand der Größe der Eigenwerte ermitteln. Behalten Sie die Hauptkomponenten mit den größten Eigenwerten bei. Wenn Sie z. B. das Kaiser-Kriterium heranziehen, verwenden Sie nur die Hauptkomponenten mit Eigenwerten größer als 1.

Um die Größe der Eigenwerte grafisch zu vergleichen, verwenden Sie das Screeplot. Das Screeplot unterstützt Sie dabei, die Anzahl der Komponenten anhand der Größe der Eigenwerte zu ermitteln.

Eigenwertanalyse der Korrelationsmatrix

Eigenwert3,54762,13201,04470,53150,41120,16650,12540,0411
Anteil0,4430,2660,1310,0660,0510,0210,0160,005
Kumulativ0,4430,7100,8410,9070,9580,9790,9951,000

Eigenvektoren

VariablePC1PC2PC3PC4PC5PC6PC7PC8
Einkommen0,3140,145-0,676-0,347-0,2410,4940,018-0,030
Ausbildung0,2370,444-0,4010,2400,622-0,3570,1030,057
Alter0,484-0,135-0,004-0,212-0,175-0,487-0,657-0,052
Ansässig0,466-0,2770,0910,116-0,035-0,0850,487-0,662
Anstellung0,459-0,3040,122-0,017-0,014-0,0230,3680,739
Ersparnisse0,4040,2190,3660,4360,1430,568-0,348-0,017
Schulden-0,067-0,585-0,078-0,2810,6810,245-0,196-0,075
Kreditkarten-0,123-0,452-0,4680,703-0,195-0,022-0,1580,058

In diesen Ergebnissen weisen die ersten drei Hauptkomponenten Eigenwerte größer als 1 auf. Diese drei Komponenten erklären 84,1 % der Streuung in den Daten. Das Screeplot zeigt, dass die Eigenwerte nach der dritten Hauptkomponente beginnen, eine gerade Linie zu bilden. Wenn 84,1 % ein hinreichender Anteil der erklärten Streuung in den Daten ist, empfiehlt es sich, die ersten drei Hauptkomponenten zu verwenden.

Anteil

„Anteil“ ist der Anteil der Streuung in den Daten, der von der jeweiligen Hauptkomponente erklärt wird.

Interpretation

Verwenden Sie den Anteil, um zu ermitteln, welche Hauptkomponenten den größten Teil der Streuung in den Daten erklären. Je höher der Anteil, desto mehr Streuung wird von der jeweiligen Hauptkomponente erklärt. Anhand der Größe des Anteils können Sie entscheiden, ob die Hauptkomponente bedeutend genug ist, dass sie beibehalten werden sollte.

Eine Hauptkomponente mit einem Anteil von 0,621 erklärt z. B. 62,1 % der Streuung in den Daten. Es ist daher wichtig, diese Komponente einzubinden. Eine andere Komponente weist einen Anteil von 0,005 auf und erklärt daher nur 0,5 % der Streuung in den Daten. Diese Komponente ist möglicherweise nicht so wichtig, dass sie eingebunden werden muss.

Kumulativ

„Kumulativ“ ist der kumulative Anteil der Streuung in der Stichprobe, der durch aufeinander folgende Hauptkomponenten erklärt wird.

Interpretation

Verwenden Sie den kumulativen Anteil, um die Gesamtvarianz zu ermitteln, die durch aufeinander folgende Hauptkomponenten erklärt wird. Anhand des kumulativen Anteils können Sie bestimmen, wie viele Hauptkomponenten Sie verwenden sollten. Behalten Sie die Hauptkomponenten bei, die einen angemessenen Anteil der Varianz erklären. Welcher Anteil angemessen ist, hängt von Ihrer Anwendung ab.

Wenn Sie die Hauptkomponenten z. B. nur zu Beschreibungszwecken verwenden, müssen sie möglicherweise nur 80 % der Varianz erklären. Wenn Sie mit den Daten jedoch weitere Analysen durchführen werden, möchten Sie vielleicht, dass die Hauptkomponenten mindestens 90 % der Varianz erklären.

Hauptkomponenten (PC)

Die Hauptkomponenten sind die linearen Kombinationen der ursprünglichen Variablen, die die Varianz in den Daten erklären. Die maximale Anzahl extrahierter Komponenten ist immer gleich der Anzahl der Variablen. Anhand der Eigenvektoren, die sich aus den Koeffizienten für die einzelnen Variablen zusammensetzen, werden die Werte der Hauptkomponenten berechnet. Die Koeffizienten geben die relative Gewichtung der einzelnen Variablen in der Komponente an.
Hinweis

Wenn Sie die Korrelationsmatrix verwenden, müssen Sie die Variablen standardisieren, um den korrekten Komponentenwert zu errechnen.

Interpretation

Um die einzelnen Hauptkomponenten zu interpretieren, untersuchen Sie Größe und Richtung der Koeffizienten für die ursprünglichen Variablen. Je größer der absolute Wert des Koeffizienten, desto wichtiger ist die entsprechende Variable bei der Berechnung der Komponente. Es hängt rein von der Betrachtung ab, wie groß der absolute Wert eines Koeffizienten sein muss, um als wichtig zu gelten. Nutzen Sie Ihr Fachwissen, um zu bestimmen, ab welcher Größe der Korrelationswert von Bedeutung ist.

Eigenwertanalyse der Korrelationsmatrix

Eigenwert3,54762,13201,04470,53150,41120,16650,12540,0411
Anteil0,4430,2660,1310,0660,0510,0210,0160,005
Kumulativ0,4430,7100,8410,9070,9580,9790,9951,000

Eigenvektoren

VariablePC1PC2PC3PC4PC5PC6PC7PC8
Einkommen0,3140,145-0,676-0,347-0,2410,4940,018-0,030
Ausbildung0,2370,444-0,4010,2400,622-0,3570,1030,057
Alter0,484-0,135-0,004-0,212-0,175-0,487-0,657-0,052
Ansässig0,466-0,2770,0910,116-0,035-0,0850,487-0,662
Anstellung0,459-0,3040,122-0,017-0,014-0,0230,3680,739
Ersparnisse0,4040,2190,3660,4360,1430,568-0,348-0,017
Schulden-0,067-0,585-0,078-0,2810,6810,245-0,196-0,075
Kreditkarten-0,123-0,452-0,4680,703-0,195-0,022-0,1580,058

In diesen Ergebnissen weist die erste Hauptkomponente starke positive Assoziationen mit „Alter“, „Ansässig“, „Anstellung“ und „Ersparnisse“ auf. Sie können diese Komponente so interpretieren, dass sie in erster Linie die langfristige finanzielle Stabilität eines Antragstellers misst. Die zweite Komponente weist starke negative Assoziationen mit „Schulden“ und „Kreditkarten“ auf, diese Komponente misst also in erster Linie die Bonität eines Antragstellers. Die dritte Komponente weist starke negative Assoziationen mit „Einkommen“, „Ausbildung“ und „Kreditkarten“ auf, diese Komponente misst also in erster Linie die Situation eines Antragstellers hinsichtlich Ausbildung und Einkommen.

Werte

Die Werte sind die linearen Kombinationen der Daten, die von den Koeffizienten der einzelnen Hauptkomponenten bestimmt werden. Um den Wert für eine Beobachtung zu erhalten, setzen Sie deren Datenwerte in die lineare Gleichung für die Hauptkomponente ein. Wenn Sie die Korrelationsmatrix verwenden, müssen Sie die Variablen standardisieren, um mit der linearen Gleichung den korrekten Komponentenwert zu errechnen.

Hinweis

Um den berechneten Wert für jede einzelne Beobachtung zu erhalten, klicken Sie auf Speichern, und geben Sie eine Spalte im Arbeitsblatt ein, in der die Werte gespeichert werden sollen, wenn Sie die Analyse durchführen. Um die Werte für die erste und zweite Komponente in einer Grafik anzuzeigen, klicken Sie auf Grafiken, und wählen Sie das Scoreplot aus, wenn Sie die Analyse durchführen.

Eigenwertanalyse der Korrelationsmatrix

Eigenwert3,54762,13201,04470,53150,41120,16650,12540,0411
Anteil0,4430,2660,1310,0660,0510,0210,0160,005
Kumulativ0,4430,7100,8410,9070,9580,9790,9951,000

Eigenvektoren

VariablePC1PC2PC3PC4PC5PC6PC7PC8
Einkommen0,3140,145-0,676-0,347-0,2410,4940,018-0,030
Ausbildung0,2370,444-0,4010,2400,622-0,3570,1030,057
Alter0,484-0,135-0,004-0,212-0,175-0,487-0,657-0,052
Ansässig0,466-0,2770,0910,116-0,035-0,0850,487-0,662
Anstellung0,459-0,3040,122-0,017-0,014-0,0230,3680,739
Ersparnisse0,4040,2190,3660,4360,1430,568-0,348-0,017
Schulden-0,067-0,585-0,078-0,2810,6810,245-0,196-0,075
Kreditkarten-0,123-0,452-0,4680,703-0,195-0,022-0,1580,058

In diesen Ergebnissen kann der Wert für die erste Hauptkomponente mit Hilfe der unter „PC1“ aufgeführten Koeffizienten aus den standardisierten Daten berechnet werden:

PC1 = 0,314 Einkommen + 0,237 Ausbildung + 0,484 Alter + 0,466 Ansässig + 0,459 Anstellung + 0,404 Ersparnisse – 0,067 Schulden – 0,123 Kreditkarten

Distanzen

Die Mahalanobis-Distanz ist der Abstand zwischen einem Datenpunkt und dem Zentroiden des multivariaten Raums (Gesamtmittelwert).

Hinweis

Um die Distanz für jede Beobachtung zu berechnen, klicken Sie auf Speichern, und geben Sie eine Spalte im Arbeitsblatt ein, in der die Distanzen gespeichert werden sollen, wenn Sie die Analyse durchführen. Um die Distanzen grafisch darzustellen, klicken Sie auf Grafiken, und wählen Sie das Diagramm der Ausreißer aus, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie die Mahalanobis-Distanzen, um Ausreißer zu identifizieren. Eine Untersuchung der Mahalanobis-Distanzen stellt eine leistungsfähigere multivariate Methode zum Erkennen von Ausreißern als das Betrachten jeweils einer Variablen dar, da bei den Distanzen die unterschiedlichen Skalen der Variablen und die Korrelationen zwischen ihnen berücksichtigt werden.

Einzeln betrachtet ist z. B. weder der x-Wert noch der y-Wert des eingekreisten Datenpunkts ungewöhnlich. Der Datenpunkt passt jedoch nicht zur Korrelationsstruktur der beiden Variablen. Daher ist die Mahalanobis-Distanz für diesen Punkt ungewöhnlich groß.

Um zu beurteilen, ob der Distanzwert so groß ist, dass die Beobachtung als Ausreißer betrachtet werden kann, verwenden Sie das Diagramm der Ausreißer.

Screeplot

Das Screeplot zeigt die Nummer der Hauptkomponenten im Vergleich zum entsprechenden Eigenwert an. Die Eigenwerte werden im Screeplot vom höchsten zum niedrigsten Wert angeordnet. Die Eigenwerte der Korrelationsmatrix sind gleich den Varianzen der Hauptkomponenten.

Um das Screeplot anzuzeigen, müssen Sie auf Grafiken klicken und das Screeplot auswählen, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie das Screeplot, um anhand der Größe der Eigenwerte die Anzahl der zu verwendenden Komponenten zu ermitteln. Das ideale Muster ist eine steile Kurve, die in eine Biegung und dann in eine Gerade übergeht. Verwenden Sie die Komponenten, die sich in der steilen Kurve vor dem ersten Punkt befinden, an dem der Trend zur Linie beginnt.

Dieses Screeplot zeigt, dass die Eigenwerte nach der dritten Hauptkomponente beginnen, eine gerade Linie zu bilden. Die verbleibenden Hauptkomponenten erklären daher einen sehr kleinen Anteil an der Streuung (nahe null) und sind wahrscheinlich unwichtig.

Scoreplot

Im Scoreplot werden die Werte der zweiten Hauptkomponente im Vergleich zu den Werten der ersten Hauptkomponente grafisch dargestellt.

Um das Scoreplot anzuzeigen, müssen Sie auf Grafiken klicken und das Scoreplot auswählen, wenn Sie die Analyse durchführen.

Interpretation

Wenn die ersten beiden Komponenten den größten Teil der Varianz in den Daten erklären, können Sie mit Hilfe des Scoreplots die Datenstruktur untersuchen sowie Cluster, Ausreißer und Trends erkennen. Gruppierungen von Daten im Diagramm können auf zwei oder mehr separate Verteilungen in den Daten hinweisen. Wenn die Daten einer Normalverteilung folgen und keine Ausreißer auftreten, sind die Punkte nach einem zufälligen Muster um null verteilt.

In diesem Scoreplot könnte der Datenpunkt in der unteren rechten Ecke ein Ausreißer sein. Sie sollten diesen Punkt untersuchen.

Tipp

Um den berechneten Wert für jede Beobachtung anzuzeigen, zeigen Sie mit dem Mauszeiger auf einen beliebigen Punkt im Diagramm. Um Scoreplots für andere Komponenten zu erstellen, speichern Sie die Werte, und verwenden Sie Grafik > Streudiagramm.

Ladungsdiagramm

Im Ladungsdiagramm werden die Koeffizienten jeder Variablen für die ersten Komponente im Vergleich zu den Koeffizienten für die zweite Komponente grafisch dargestellt. Die Koeffizienten sind die Werte, aus denen sich die Eigenvektoren für jede Hauptkomponente zusammensetzen. Die Koeffizienten geben die relative Gewichtung der einzelnen Variablen in der Komponente an.

Um das Ladungsdiagramm anzuzeigen, müssen Sie auf Grafiken klicken und das Ladungsdiagramm auswählen, wenn Sie die Analyse durchführen.

Interpretation

Ermitteln Sie mit dem Ladungsdiagramm, welche Variablen den größten Effekt auf die einzelnen Komponenten haben. Die Koeffizienten können zwischen -1 und 1 liegen. Koeffizienten nahe -1 oder 1 zeigen an, dass die Variable die Komponente stark beeinflusst. Koeffizienten nahe 0 zeigen an, dass die Variable einen schwachen Einfluss auf die Komponente hat. Die Auswertung der Koeffizienten kann Ihnen auch helfen, jede Komponente in Bezug auf die Variablen zu charakterisieren.

In diesem Ladungsdiagramm weisen „Alter“, „Ansässig“, „Anstellung“ und „Ersparnisse“ große positive Koeffizienten für Komponente 1 auf, sodass diese Komponente primär die finanzielle Stabilität eines Antragstellers misst. Schulden und Kreditkarten haben große negative Koeffizienten für Komponente 2, so dass diese Komponente in erster Linie die Kredithistorie eines Antragstellers misst.

Biplot

Das Biplot wird über das Scoreplot und das Ladungsdiagramm gelegt.

Um das Biplot anzuzeigen, klicken Sie auf Grafiken, und wählen Sie das Biplot aus, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie das Biplot, um die Datenstruktur und die Ladungen der ersten beiden Komponenten in einer Grafik zu untersuchen. Minitab stellt die Werte der zweiten Hauptkomponente im Vergleich zu den Werten der ersten Hauptkomponente sowie die Ladungen für beide Komponenten dar.

Dieses Biplot zeigt Folgendes:
  • „Alter“, „Ansässig“, „Anstellung“ und „Ersparnisse“ weisen große positive Ladungen für Komponente 1 auf. Bei dieser Komponente steht also die langfristige finanzielle Stabilität eines Antragstellers im Mittelpunkt.
  • „Schulden“ und „Kreditkarten“ weisen große negative Ladungen für Komponente 2 auf. Bei dieser Komponente steht also die Bonität eines Antragstellers im Mittelpunkt.
  • Der Datenpunkt in der unteren rechten Ecke könnte ein Ausreißer sein. Sie sollten diesen Punkt untersuchen.

Diagramm der Ausreißer

Im Diagramm der Ausreißer werden die Mahalanobis-Distanzen für die einzelnen Beobachtungen und eine Referenzlinie angezeigt, anhand derer sich Ausreißer erkennen lassen. Die Mahalanobis-Distanz ist der Abstand zwischen einem Datenpunkt und dem Zentroiden des multivariaten Raums (Gesamtmittelwert). Die Untersuchung der Mahalanobis-Distanzen ist eine trennschärfere Methode zum Erkennen von Ausreißern als die Betrachtung jeweils einer Variablen, da die unterschiedlichen Skalen der Variablen und die Korrelationen zwischen ihnen berücksichtigt werden.

Um das Diagramm der Ausreißer anzuzeigen, müssen Sie auf Grafiken klicken und das Diagramm der Ausreißer auswählen, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie das Diagramm der Ausreißer, um Ausreißer zu identifizieren. Jeder Punkt, der oberhalb der Referenzlinie liegt, stellt einen Ausreißer dar.

Ausreißer können die Ergebnisse Ihrer Analyse wesentlich beeinflussen. Wenn Sie einen Ausreißer in den Daten identifiziert haben, sollten Sie diese Beobachtung daher untersuchen, um die Ursache dafür zu ermitteln. Korrigieren Sie sämtliche Dateneingabe- oder Messfehler. Erwägen Sie, Daten zu entfernen, die auf Ausnahmebedingungen zurückzuführen sind, und die Analyse zu wiederholen.

In diesen Ergebnissen sind keine Ausreißer vorhanden. Alle Punkte liegen unterhalb der Referenzlinie.

Tipp

Zeigen Sie mit dem Mauszeiger auf einen beliebigen Punkt im Diagramm der Ausreißer, um die Beobachtung zu identifizieren. Verwenden Sie Editor > Markieren, um mehrere Ausreißer im Diagramm zu markieren und die Beobachtungen im Arbeitsblatt zu kennzeichnen.