Método para Análisis de correspondencia simple

El análisis de correspondencia simple realiza un análisis ponderado de los componentes principales de una tabla de contingencia. Si la tabla de contingencia tiene r filas y c columnas, el número de dimensiones subyacentes es (r − 1) o (c − 1), el que sea menor. Igual que con los componentes principales, la variabilidad se divide, pero en lugar de dividir la varianza total, el análisis de correspondencia simple divide el estadístico χ² de Pearson (básicamente el mismo estadístico que se calcula en la prueba de χ² para asociación).

Tradicionalmente, el análisis de correspondencia utiliza χ² / n, lo que se denomina inercia o inercia total, en lugar de Χ². Las inercias asociadas a todos los componentes principales suman la inercia total. Lo ideal es que el primer componente o los dos o tres primeros componentes representen la mayor parte de la inercia total.

Los componentes principales, también denominados ejes principales, abarcan los subespacios dimensionales más bajos. El primer eje principal se escoge de manera que represente la máxima cantidad de la inercia total; el segundo eje principal se selecciona de manera que represente la máxima cantidad de la inercia restante, y así sucesivamente. El primer eje principal abarca el mejor subespacio unidimensional (más cercano a los perfiles que usan una métrica apropiada; los dos primeros ejes principales abarcan el mejor subespacio bidimensional mejor, y así sucesivamente. Estos subespacios están anidados, lo que significa que el mejor subespacio unidimensional es un subespacio del mejor subespacio bidimensional, y así sucesivamente.

La coordenada principal para el perfil de fila y el componente (eje) k es la coordenada de la proyección del perfil de fila i hacia el componente k. Las coordenadas estandarizadas de fila para el componente k son las coordenadas principales del componente k dividido entre la raíz cuadrada de la k^ésima inercia.

Del mismo modo, la coordenada principal para el perfil de columna j y el componente (eje) k es la coordenada de la proyección del perfil de columna j hacia el componente k. Las coordenadas estandarizadas de columna para el componente k son las coordenadas principales del componente k dividido entre la raíz cuadrada de la k^ésima inercia.

La tabla de contingencia se puede analizar en términos de perfiles de fila o perfiles de columna. Un perfil de fila es una lista de proporciones de fila que se calculan a partir de los conteos que contiene la tabla de contingencia. Específcamente, el perfil para la fila i es (n_i1 / _ni., n_i2 / n_i., ... , n_ic / n_i.). Un perfil de columna es una lista de proporciones de columna, donde n_ij, es la frecuencia en la fila i y la columna j de la tabla y n_i., es la suma de las frecuencias en la fila i. Específicamente, el perfil para la columna j es (n_1j/ n_.j, n_2j / n_.j, ... , n_rj / n_.j), donde n_.j, es la suma de las frecuencias en la columna j.

Los dos análisis son matemáticamente equivalentes. El análisis que se utiliza depende de la aplicación. La mayoría de las veces, a los investigadores les interesa evaluar cómo difieren entre sí los perfiles de fila o cómo difieren entre sí los perfiles columna.

Los perfiles de fila son vectores de longitud c y, por lo tanto, se encuentran en un espacio c-dimensional (del mismo modo, los perfiles de columna se encuentran en un espacio r-dimensional). Puesto que esta dimensión suele ser demasiado alta para permitir una fácil interpretación, usted debe tratar de encontrar un subespacio de dimensión más baja (preferiblemente no más de dos o tres) que se encuentre cerca de todos los puntos del perfil de fila (o los puntos del perfil de columna). Posteriormente, puede proyectar los puntos del perfil hacia este subespacio y evaluar las proyecciones. Si las proyecciones están cerca de los perfiles, no se pierde mucha información. Al trabajar en dos o tres dimensiones, los datos se pueden evaluar con mayor facilidad y, en particular, es posible examinar gráficas. Este proceso es similar a seleccionar un pequeño número de componentes principales para resumir la variabilidad de los datos continuos.

Si d = el más pequeño entre (r − 1) y (c − 1), entonces los perfiles de fila (o equivalentemente los perfiles de columna) se encontrarán en un subespacio d-dimensional del espacio c-dimensional completo (o equivalentemente del espacio r-dimensional completo). Por lo tanto, existen como máximo d componentes principales.