Methode für Einfache Korrespondenzanalyse

Bei einer einfachen Korrespondenzanalyse wird eine gewichtete Hauptkomponentenanalyse einer Kontingenztafel durchgeführt. Wenn die Kontingenztafel über r Zeilen und c Spalten verfügt, entspricht die Anzahl der zugrunde liegenden Dimensionen dem kleineren der beiden Werte (r − 1) und (c − 1). Die Streuung wird wie bei der Hauptkomponentenanalyse partitioniert, aber statt der Gesamtstreuung wird bei der Korrespondenzanalyse die χ²-Statistik nach Pearson partitioniert (im Grunde dieselbe Statistik, die beim χ²-Test auf Assoziation berechnet wird).

Traditionell wird bei der Korrespondenzanalyse χ² / n, als Trägheit oder Gesamtträgheit bezeichnet, anstelle von Χ² verwendet. Die Summe aller mit den Hauptkomponenten verbundenen Trägheiten ergibt die Gesamtträgheit. Im Idealfall erklären die ersten ein, zwei oder drei Komponenten den Großteil der Gesamtträgheit.

Die Hauptkomponenten, auch als Hauptachsen bezeichnet, spannen Unterräume mit weniger Dimensionen auf. Die erste Hauptachse wird so ausgewählt, dass sie den größtmöglichen Betrag der Gesamtträgheit erklärt; die zweite Hauptachse wird so ausgewählt, dass sie den größtmöglichen Betrag der verbleibenden Trägheit erklärt, usw. Die erste Hauptachse spannt den besten eindimensionalen Unterraum auf (also den, der gemäß eines geeigneten Maßes am nächsten an den Profilen liegt); die ersten zwei Hauptachsen spannen den besten zweidimensionalen Unterraum auf usw. Diese Unterräume sind geschachtelt, d. h., der beste eindimensionale Unterraum ist ein Unterraum des besten zweidimensionalen Unterraums usw.

Die Hauptkoordinate für das Zeilenprofil i und die Komponente (Achse) k ist die Koordinate der Projektion von Zeilenprofil i auf Komponente k. Die standardisierten Koordinaten in Zeilen für die Komponente k stellen den Quotienten aus den Hauptkoordinaten für die Komponente k und der Quadratwurzel der k-ten Trägheit dar.

Analog dazu ist die Hauptkoordinate für das Spaltenprofil j und die Komponente k die Koordinate der Projektion von Spaltenprofil j auf Komponente k. Die standardisierten Koordinaten in Spalten für die Komponente k stellen den Quotienten aus den Hauptkoordinaten in Spalten für die Komponente k und der Quadratwurzel der k-ten Trägheit dar.

Die Kontingenztafel kann in Hinblick auf Zeilenprofile oder Spaltenprofile analysiert werden. Ein Zeilenprofil ist eine Liste der Zeilenanteile, die anhand der Anzahlen in der Kontingenztafel berechnet werden. Das Profil für Zeile i entspricht demnach (n_i1 / _ni., n_i2 / n_i., ... , n_ic / n_i.). Ein Spaltenprofil ist eine Liste der Spaltenanteile, wobei n_ij die Anzahl in Zeile i und Spalte j der Tabelle und n_i. die Summe der Anzahlen in Zeile i ist. Das Profil für Spalte j entspricht demnach (n_1j/ n_.j, n_2j / n_.j, ... , n_rj / n_.j), wobei n_.j die Summe der Anzahlen in Spalte j ist.

Die beiden Analysen sind mathematisch äquivalent. Welche Analyse Sie verwenden, hängt von Ihrer Anwendung ab. In den meisten Fällen möchten Forscher untersuchen, wie sich die Zeilenprofile voneinander unterscheiden oder wie sich die Spaltenprofile voneinander unterscheiden.

Zeilenprofile sind Vektoren der Länge c und liegen daher in einem c-dimensionalen Raum (analog dazu liegen Spaltenprofile in einem r-dimensionalen Raum). Da dies in der Regel zu viele Dimensionen für eine einfache Interpretation sind, sollten Sie versuchen, einen Unterraum mit weniger Dimensionen (vorzugsweise nicht mehr als zwei oder drei) zu finden, der nahe an allen Punkten des Zeilenprofils (bzw. des Spaltenprofils) liegt. Sie können die Profilpunkte dann auf diesen Unterraum projizieren und die Projektionen untersuchen. Wenn die Projektionen dicht an den Profilen liegen, gehen Ihnen nicht viele Informationen verloren. Wenn Sie in zwei oder drei Dimensionen arbeiten, können Sie die Daten leichter auswerten und haben insbesondere auch die Möglichkeit, Diagramme zu untersuchen. Dieses ist konzeptionell ähnlich der Auswahl einer kleinen Anzahl von Hauptkomponenten zur Zusammenfassung der Streuung in stetigen Daten.

Wenn d = der kleinere Wert von (r − 1) und (c − 1), dann liegen die Zeilenprofile (bzw. die Spaltenprofile) in einem d-dimensionalen Unterraum des vollständigen c-dimensionalen Raums (bzw. des vollständigen r-dimensionalen Raums). Daher sind maximal d Hauptkomponenten vorhanden.