Interpretieren aller Statistiken und Grafiken für Hauptkomponentenanalyse

Hier finden Sie Definitionen und Anleitungen zur Interpretation für alle Statistiken und Grafiken, die für die Hauptkomponentenanalyse bereitgestellt werden.

Eigenwert

Die Eigenwerte (die auch als charakteristische Werte oder latente Wurzeln bezeichnet werden) sind die Varianzen der Hauptkomponenten.

Interpretation

Sie können die Anzahl der Hauptkomponenten anhand der Größe der Eigenwerte ermitteln. Behalten Sie die Hauptkomponenten mit den größten Eigenwerten bei. Wenn Sie z. B. das Kaiser-Kriterium heranziehen, verwenden Sie nur die Hauptkomponenten mit Eigenwerten größer als 1.

Um die Größe der Eigenwerte grafisch zu vergleichen, verwenden Sie das Screeplot. Das Screeplot unterstützt Sie dabei, die Anzahl der Komponenten anhand der Größe der Eigenwerte zu ermitteln.

Hauptkomponentenanalyse: Einkommen; Ausbildung; Alter; Ansässig; ...

Eigenwertanalyse der Korrelationsmatrix Eigenwert 3,5476 2,1320 1,0447 0,5315 0,4112 0,1665 0,1254 0,0411 Anteil 0,443 0,266 0,131 0,066 0,051 0,021 0,016 0,005 Kumulativ 0,443 0,710 0,841 0,907 0,958 0,979 0,995 1,000
Eigenvektoren Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 Einkommen 0,314 0,145 -0,676 -0,347 -0,241 0,494 0,018 -0,030 Ausbildung 0,237 0,444 -0,401 0,240 0,622 -0,357 0,103 0,057 Alter 0,484 -0,135 -0,004 -0,212 -0,175 -0,487 -0,657 -0,052 Ansässig 0,466 -0,277 0,091 0,116 -0,035 -0,085 0,487 -0,662 Anstellung 0,459 -0,304 0,122 -0,017 -0,014 -0,023 0,368 0,739 Ersparnisse 0,404 0,219 0,366 0,436 0,143 0,568 -0,348 -0,017 Schulden -0,067 -0,585 -0,078 -0,281 0,681 0,245 -0,196 -0,075 Kreditkarten -0,123 -0,452 -0,468 0,703 -0,195 -0,022 -0,158 0,058

In diesen Ergebnissen weisen die ersten drei Hauptkomponenten Eigenwerte größer als 1 auf. Diese drei Komponenten erklären 84,1 % der Streuung in den Daten. Das Screeplot zeigt, dass die Eigenwerte nach der dritten Hauptkomponente beginnen, eine gerade Linie zu bilden. Wenn es ausreicht, das 84,1 % der Streuung in den Daten erklärt wird, sollten Sie die ersten drei Hauptkomponenten verwenden.

Anteil

„Anteil“ ist der Anteil der Streuung in den Daten, der von der jeweiligen Hauptkomponente erklärt wird.

Interpretation

Verwenden Sie den Anteil, um zu ermitteln, welche Hauptkomponenten den größten Teil der Streuung in den Daten erklären. Je höher der Anteil, desto mehr Streuung wird von der jeweiligen Hauptkomponente erklärt. Anhand der Größe des Anteils können Sie entscheiden, ob die Hauptkomponente bedeutend genug ist, dass sie beibehalten werden sollte.

Eine Hauptkomponente mit einem Anteil von 0,621 erklärt z. B. 62,1 % der Streuung in den Daten. Es ist daher wichtig, diese Komponente einzubinden. Eine andere Komponente weist einen Anteil von 0,005 auf und erklärt daher nur 0,5 % der Streuung in den Daten. Diese Komponente ist möglicherweise nicht so wichtig, dass sie eingebunden werden muss.

Kumulativ

„Kumulativ“ ist der kumulative Anteil der Streuung in der Stichprobe, der durch aufeinander folgende Hauptkomponenten erklärt wird.

Interpretation

Verwenden Sie den kumulativen Anteil, um die Gesamtvarianz zu ermitteln, die durch aufeinander folgende Hauptkomponenten erklärt wird. Anhand des kumulativen Anteils können Sie bestimmen, wie viele Hauptkomponenten Sie verwenden sollten. Behalten Sie die Hauptkomponenten bei, die einen angemessenen Anteil der Varianz erklären. Welcher Anteil angemessen ist, hängt von Ihrer Anwendung ab.

Wenn Sie die Hauptkomponenten z. B. nur zu Beschreibungszwecken verwenden, müssen sie möglicherweise nur 80 % der Varianz erklären. Wenn Sie mit den Daten jedoch weitere Analysen durchführen werden, möchten Sie vielleicht, dass die Hauptkomponenten mindestens 90 % der Varianz erklären.

Hauptkomponenten (PC)

Die Hauptkomponenten sind die linearen Kombinationen der ursprünglichen Variablen, die die Varianz in den Daten erklären. Die maximale Anzahl extrahierter Komponenten ist immer gleich der Anzahl der Variablen. Anhand der Eigenvektoren, die sich aus den Koeffizienten für die einzelnen Variablen zusammensetzen, werden die Werte der Hauptkomponenten berechnet. Die Koeffizienten geben die relative Gewichtung der einzelnen Variablen in der Komponente an.
Hinweis

Wenn Sie die Korrelationsmatrix verwenden, müssen Sie die Variablen standardisieren, um den korrekten Komponentenwert zu errechnen.

Interpretation

Um die einzelnen Hauptkomponenten zu interpretieren, untersuchen Sie Größe und Richtung der Koeffizienten für die ursprünglichen Variablen. Je größer der absolute Wert des Koeffizienten, desto wichtiger ist die entsprechende Variable bei der Berechnung der Komponente. Es hängt rein von der Betrachtung ab, wie groß der absolute Wert eines Koeffizienten sein muss, um als wichtig zu gelten. Nutzen Sie Ihr Fachwissen, um zu bestimmen, ab welcher Größe der Korrelationswert von Bedeutung ist.

Hauptkomponentenanalyse: Einkommen; Ausbildung; Alter; Ansässig; ...

Eigenwertanalyse der Korrelationsmatrix Eigenwert 3,5476 2,1320 1,0447 0,5315 0,4112 0,1665 0,1254 0,0411 Anteil 0,443 0,266 0,131 0,066 0,051 0,021 0,016 0,005 Kumulativ 0,443 0,710 0,841 0,907 0,958 0,979 0,995 1,000
Eigenvektoren Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 Einkommen 0,314 0,145 -0,676 -0,347 -0,241 0,494 0,018 -0,030 Ausbildung 0,237 0,444 -0,401 0,240 0,622 -0,357 0,103 0,057 Alter 0,484 -0,135 -0,004 -0,212 -0,175 -0,487 -0,657 -0,052 Ansässig 0,466 -0,277 0,091 0,116 -0,035 -0,085 0,487 -0,662 Anstellung 0,459 -0,304 0,122 -0,017 -0,014 -0,023 0,368 0,739 Ersparnisse 0,404 0,219 0,366 0,436 0,143 0,568 -0,348 -0,017 Schulden -0,067 -0,585 -0,078 -0,281 0,681 0,245 -0,196 -0,075 Kreditkarten -0,123 -0,452 -0,468 0,703 -0,195 -0,022 -0,158 0,058

In diesen Ergebnissen weist die erste Hauptkomponente starke positive Assoziationen mit „Alter“, „Ansässig“, „Anstellung“ und „Ersparnisse“ auf. Sie können diese Komponente so interpretieren, dass sie in erster Linie die langfristige finanzielle Stabilität eines Antragstellers misst. Die zweite Komponente weist starke negative Assoziationen mit „Schulden“ und „Kreditkarten“ auf, diese Komponente misst also in erster Linie die Bonität eines Antragstellers. Die dritte Komponente weist starke negative Assoziationen mit „Einkommen“, „Ausbildung“ und „Kreditkarten“ auf, diese Komponente misst also in erster Linie die Situation eines Antragstellers hinsichtlich Ausbildung und Einkommen.

Werte

Die Werte sind die linearen Kombinationen der Daten, die von den Koeffizienten der einzelnen Hauptkomponenten bestimmt werden. Um den Wert für eine Beobachtung zu erhalten, setzen Sie deren Datenwerte in die lineare Gleichung für die Hauptkomponente ein. Wenn Sie die Korrelationsmatrix verwenden, müssen Sie die Variablen standardisieren, um mit der linearen Gleichung den korrekten Komponentenwert zu errechnen.

Hinweis

Um den berechneten Wert für jede einzelne Beobachtung zu erhalten, klicken Sie auf Speichern, und geben Sie eine Spalte im Arbeitsblatt ein, in der die Werte gespeichert werden sollen, wenn Sie die Analyse durchführen. Um die Werte für die erste und zweite Komponente in einer Grafik anzuzeigen, klicken Sie auf Grafiken, und wählen Sie das Scoreplot aus, wenn Sie die Analyse durchführen.

Hauptkomponentenanalyse: Einkommen; Ausbildung; Alter; Ansässig; ...

Eigenwertanalyse der Korrelationsmatrix Eigenwert 3,5476 2,1320 1,0447 0,5315 0,4112 0,1665 0,1254 0,0411 Anteil 0,443 0,266 0,131 0,066 0,051 0,021 0,016 0,005 Kumulativ 0,443 0,710 0,841 0,907 0,958 0,979 0,995 1,000
Eigenvektoren Variable PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 Einkommen 0,314 0,145 -0,676 -0,347 -0,241 0,494 0,018 -0,030 Ausbildung 0,237 0,444 -0,401 0,240 0,622 -0,357 0,103 0,057 Alter 0,484 -0,135 -0,004 -0,212 -0,175 -0,487 -0,657 -0,052 Ansässig 0,466 -0,277 0,091 0,116 -0,035 -0,085 0,487 -0,662 Anstellung 0,459 -0,304 0,122 -0,017 -0,014 -0,023 0,368 0,739 Ersparnisse 0,404 0,219 0,366 0,436 0,143 0,568 -0,348 -0,017 Schulden -0,067 -0,585 -0,078 -0,281 0,681 0,245 -0,196 -0,075 Kreditkarten -0,123 -0,452 -0,468 0,703 -0,195 -0,022 -0,158 0,058

In diesen Ergebnissen kann der Wert für die erste Hauptkomponente mit Hilfe der unter „PC1“ aufgeführten Koeffizienten aus den standardisierten Daten berechnet werden:

PC1 = 0,314 Einkommen + 0,237 Ausbildung + 0,484 Alter + 0,466 Ansässig + 0,459 Anstellung + 0,404 Ersparnisse – 0,067 Schulden – 0,123 Kreditkarten

Distanzen

Die Mahalanobis-Distanz ist der Abstand zwischen einem Datenpunkt und dem Zentroiden des multivariaten Raums (Gesamtmittelwert).

Hinweis

Um die Distanz für jede Beobachtung zu berechnen, klicken Sie auf Speichern, und geben Sie eine Spalte im Arbeitsblatt ein, in der die Distanzen gespeichert werden sollen, wenn Sie die Analyse durchführen. Um die Distanzen grafisch darzustellen, klicken Sie auf Grafiken, und wählen Sie das Diagramm der Ausreißer aus, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie die Mahalanobis-Distanzen, um Ausreißer zu identifizieren. Eine Untersuchung der Mahalanobis-Distanzen stellt eine leistungsfähigere multivariate Methode zum Erkennen von Ausreißern als das Betrachten jeweils einer Variablen dar, da bei den Distanzen die unterschiedlichen Skalen der Variablen und die Korrelationen zwischen ihnen berücksichtigt werden.

Einzeln betrachtet ist z. B. weder der x-Wert noch der y-Wert des eingekreisten Datenpunkts ungewöhnlich. Der Datenpunkt passt jedoch nicht zur Korrelationsstruktur der beiden Variablen. Daher ist die Mahalanobis-Distanz für diesen Punkt ungewöhnlich groß.

Um zu beurteilen, ob der Distanzwert so groß ist, dass die Beobachtung als Ausreißer betrachtet werden kann, verwenden Sie das Diagramm der Ausreißer.

Screeplot

Das Screeplot zeigt die Nummer der Hauptkomponenten im Vergleich zum entsprechenden Eigenwert an. Die Eigenwerte werden im Screeplot vom höchsten zum niedrigsten Wert angeordnet. Die Eigenwerte der Korrelationsmatrix sind gleich den Varianzen der Hauptkomponenten.

Um das Screeplot anzuzeigen, müssen Sie auf Grafiken klicken und das Screeplot auswählen, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie das Screeplot, um anhand der Größe der Eigenwerte die Anzahl der zu verwendenden Komponenten zu ermitteln. Das ideale Muster ist eine steile Kurve, die in eine Biegung und dann in eine Gerade übergeht. Verwenden Sie die Komponenten, die sich in der steilen Kurve vor dem ersten Punkt befinden, an dem der Trend zur Linie beginnt.

Dieses Screeplot zeigt, dass die Eigenwerte nach der dritten Hauptkomponente beginnen, eine gerade Linie zu bilden. Die verbleibenden Hauptkomponenten erklären daher einen sehr kleinen Anteil an der Streuung (nahe null) und sind wahrscheinlich unwichtig.

Scoreplot

Im Scoreplot werden die Werte der zweiten Hauptkomponente im Vergleich zu den Werten der ersten Hauptkomponente grafisch dargestellt.

Um das Scoreplot anzuzeigen, müssen Sie auf Grafiken klicken und das Scoreplot auswählen, wenn Sie die Analyse durchführen.

Interpretation

Wenn die ersten beiden Komponenten den größten Teil der Varianz in den Daten erklären, können Sie mit Hilfe des Scoreplots die Datenstruktur untersuchen sowie Cluster, Ausreißer und Trends erkennen. Gruppierungen von Daten im Diagramm können auf zwei oder mehr separate Verteilungen in den Daten hinweisen. Wenn die Daten einer Normalverteilung folgen und keine Ausreißer auftreten, sind die Punkte nach einem zufälligen Muster um null verteilt.

In diesem Scoreplot könnte der Datenpunkt in der unteren rechten Ecke ein Ausreißer sein. Sie sollten diesen Punkt untersuchen.

Tipp

Um den berechneten Wert für jede Beobachtung anzuzeigen, zeigen Sie mit dem Mauszeiger auf einen beliebigen Punkt im Diagramm. Um Scoreplots für andere Komponenten zu erstellen, speichern Sie die Werte, und verwenden Sie Grafik > Streudiagramm.

Ladungsdiagramm

Im Ladungsdiagramm werden die Koeffizienten jeder Variablen für die ersten Komponente im Vergleich zu den Koeffizienten für die zweite Komponente grafisch dargestellt.

Um das Ladungsdiagramm anzuzeigen, müssen Sie auf Grafiken klicken und das Ladungsdiagramm auswählen, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie das Ladungsdiagramm, um festzustellen, welche Variablen die größten Auswirkungen auf die einzelnen Komponenten haben. Die Ladungen können Werte von –1 bis 1 annehmen. Je näher die Ladung am Extremwert –1 oder 1 liegt, desto stärker beeinflusst die Variable die Komponente. Eine Ladung nahe 0 gibt an, dass die Komponente durch die Variable nur schwach beeinflusst wird. Eine Untersuchung der Ladungen ist auch bei der Charakterisierung der einzelnen Komponenten in Hinblick auf die Variablen hilfreich.

In diesem Ladungsdiagramm weisen „Alter“, „Ansässig“, „Anstellung“ und „Ersparnisse“ große positive Ladungen für Komponente 1 auf. Diese Komponente misst also in erster Linie die finanzielle Stabilität eines Antragstellers. „Schulden“ und „Kreditkarten“ weisen große negative Ladungen für Komponente 2 auf, diese Komponente misst also in erster Linie die Bonität eines Antragstellers.

Biplot

Das Biplot wird über das Scoreplot und das Ladungsdiagramm gelegt.

Um das Biplot anzuzeigen, klicken Sie auf Grafiken, und wählen Sie das Biplot aus, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie das Biplot, um die Datenstruktur und die Ladungen der ersten beiden Komponenten in einer Grafik zu untersuchen. Minitab stellt die Werte der zweiten Hauptkomponente im Vergleich zu den Werten der ersten Hauptkomponente sowie die Ladungen für beide Komponenten dar.

Dieses Biplot zeigt Folgendes:
  • „Alter“, „Ansässig“, „Anstellung“ und „Ersparnisse“ weisen große positive Ladungen für Komponente 1 auf. Bei dieser Komponente steht also die langfristige finanzielle Stabilität eines Antragstellers im Mittelpunkt.
  • „Schulden“ und „Kreditkarten“ weisen große negative Ladungen für Komponente 2 auf. Bei dieser Komponente steht also die Bonität eines Antragstellers im Mittelpunkt.
  • Der Datenpunkt in der unteren rechten Ecke könnte ein Ausreißer sein. Sie sollten diesen Punkt untersuchen.

Diagramm der Ausreißer

Das Diagramm der Ausreißer zeigt die Mahalanobis-Distanz für jede Beobachtung sowie eine Referenzlinie zum Identifizieren der Ausreißer. Die Mahalanobis-Distanz ist der Abstand zwischen einem Datenpunkt und dem Zentroiden des multivariaten Raums (Gesamtmittelwert). Eine Untersuchung der Mahalanobis-Distanzen stellt eine leistungsfähigere Methode zum Erkennen von Ausreißern als das Betrachten jeweils einer Variablen dar, da die unterschiedlichen Skalen der Variablen und die Korrelationen zwischen ihnen berücksichtigt werden.

Um das Diagramm der Ausreißer anzuzeigen, müssen Sie auf Grafiken klicken und das Diagramm der Ausreißer auswählen, wenn Sie die Analyse durchführen.

Interpretation

Verwenden Sie das Diagramm der Ausreißer, um Ausreißer zu identifizieren. Jeder Punkt, der oberhalb der Referenzlinie liegt, stellt einen Ausreißer dar.

Ausreißer können die Ergebnisse Ihrer Analyse wesentlich beeinflussen. Wenn Sie einen Ausreißer in den Daten identifiziert haben, sollten Sie diese Beobachtung daher untersuchen, um ihre Ursache zu ermitteln. Korrigieren Sie sämtliche Dateneingabe- oder Messfehler. Erwägen Sie, Daten zu entfernen, die auf Ausnahmebedingungen zurückzuführen sind, und die Analyse zu wiederholen.

In diesen Ergebnissen sind keine Ausreißer vorhanden. Alle Punkte liegen unterhalb der Referenzlinie.

Tipp

Zeigen Sie mit dem Mauszeiger auf einen beliebigen Punkt im Diagramm der Ausreißer, um die Beobachtung zu identifizieren. Verwenden Sie Editor > Markieren, um mehrere Ausreißer im Diagramm zu markieren und die Beobachtungen im Arbeitsblatt zu kennzeichnen.

Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien