Méthode pour la fonction Analyse des correspondances simples

L'analyse des correspondances simples effectue une analyse pondérée des composantes principales d'un tableau de contingence. Si le tableau de contingence contient r lignes et c colonnes, le nombre de dimensions sous-jacentes est la valeur la plus petite entre (r − 1) et (c − 1). Comme pour les composantes principales, la variabilité est subdivisée, mais au lieu de subdiviser la variance totale, l'analyse des correspondances simples subdivise la statistique du χ² de Pearson (sensiblement la même statistique que celle calculée lors du test d'association du χ²).

En général, l'analyse des correspondances utilise χ² / n, qui correspond à l'inertie nommée ou à l'inertie totale, plutôt que Χ². Les inerties associées à toutes les composantes principales s'ajoutent à l'inertie totale. Dans l'idéal, la première, les deux premières ou les trois premières composantes représentent la plus grande partie de l'inertie totale.

Les sous-espaces de dimension inférieurs sont couverts par les composantes principales, également appelées axes principaux. Le premier axe principal est choisi de sorte qu'il représente la plus grande partie de l'inertie totale ; le deuxième axe principal est choisi de sorte qu'il représente la plus grande partie de l'inertie restante, et ainsi de suite. Le premier axe principal couvre le meilleur sous-espace unidimensionnel (le plus proche des profils avec une mesure appropriée) ; les deux premiers axes principaux couvrent le meilleur sous-espace à deux dimensions, et ainsi de suite. Ces sous-espaces sont emboîtés, ce qui signifie que le meilleur sous-espace unidimensionnel est un sous-espace compris dans le meilleur sous-espace à deux dimensions, et ainsi de suite.

La coordonnée principale du profil de ligne i et de la composante (axe) k est la coordonnée de la projection du profil de ligne i sur la composante k. Les coordonnées normalisées de lignes de la composante k sont égales aux coordonnées principales de la composante i divisées par la racine carrée de la k-ième inertie.

De la même manière, la coordonnée principale du profil de colonne j et de la composante k est la coordonnée de la projection du profil de colonne j sur la composante k. Les coordonnées normalisées de colonnes de la composante k sont égales aux coordonnées principales de colonnes de la composante k divisées par la racine carrée de la k-ième inertie.

Le tableau de contingence peut être analysé par rapport aux profils de lignes ou de colonnes. Un profil de ligne est une liste de proportions de lignes calculées à partir des dénombrements du tableau de contingence. En particulier, le profil de la ligne i est (n_i1 / _ni., n_i2 / n_i., ... , n_ic / n_i.). Un profil de colonne est une liste de proportions de colonnes, où n_ij est l'effectif à l'intersection de la ligne i et de la colonne j du tableau, et n_i. est la somme des effectifs dans la ligne i. En particulier, le profil de la colonne j est (n_1j/ n_.j, n_2j / n_.j, ..., n_rj / n_.j), où n_.j est la somme des effectifs dans la colonne j.

Les deux analyses sont équivalentes du point de vue mathématique. L'analyse que vous utilisez dépend de votre application. Le plus souvent, les chercheurs souhaitent étudier comment les profils de lignes (ou profils de colonnes) diffèrent les uns par rapport aux autres.

Les profils de lignes sont des vecteurs de longueur c et se trouvent donc dans un espace de dimension c (de même, les profils de colonnes se trouvent dans un espace de dimension r). Etant donné que cette dimension est généralement trop élevée pour être interprétées facilement, vous pouvez essayer de chercher un sous-espace de dimension inférieure (dans l'idéal, pas plus de deux ou trois) qui se trouve près de tous les points de profils de lignes (ou de profils de colonnes). Vous pouvez ensuite projeter les points de profils sur ce sous-espace et étudier les projections. Si les projections sont proches des profils, vous perdez peu d'informations. Lorsque vous utilisez deux ou trois dimensions, vous pouvez étudier les données plus facilement, et notamment examiner les graphiques. Ce processus équivaut à choisir un petit nombre de composantes principales pour résumer la variabilité des données continues.

Si d = valeur la plus petite entre (r − 1) et (c − 1), les profils de lignes (ou profils de colonnes) se trouvent dans un sous-espace de dimension d qui est compris dans l'espace de dimension c entier (équivalent à l'espace de dimension r entier). Par conséquent, vous disposez d'un maximum de d composantes principales.