Método para Análise de correspondência simples

A análise de correspondência simples realiza uma análise ponderada dos componentes principais de uma tabela de contingência. Se a tabela de contingência tem r linhas e c colunas, o número de dimensões subjacentes é menor do que (r − 1) ou (c − 1). Como ocorre com os componentes principais, a variabilidade é particionada, mas em vez de particionar a variância total, a análise de correspondência simples particiona a estatística de Pearson χ² (basicamente a mesma estatística calculada no teste χ² para associação).

Tradicionalmente, a análise de correspondência usa χ² / n, que é denominada inércia ou inércia total, em vez de Χ². As inércias associadas com todos os componentes principais adicionam-se à inércia total. Idealmente, o primeiro, dois ou três componentes respondem pela maior parte da inércia total.

Subespaços dimensionais inferiores são cruzados por eixos principais, também chamados de eixos principais. O primeiro eixo principal é escolhido, de forma que ele responda pela máxima quantidade de inércia total; o segundo eixo principal é escolhido de forma que ele responda pela quantidade máxima da inércia restante; e assim por diante. O primeiro eixo principal cruza o melhor subespaço unidimensional (próximo dos perfis que usam uma métrica adequada; os primeiros dois eixos principais abrangem o melhor subespaço bidimensional; e assim por diante. Esses subespaços são aninhados, o que significa que o melhor subespaço unidimensional é um subespaço do melhor subespaço bidimensional, e assim por diante.

A coordenada principal para o perfil da linha i e o componente (eixo) k é a coordenada da projeção do perfil da linha i no componente k. As coordenadas de linhas padronizadas do componente k são as principais coordenadas do componente k divididas pela raiz quadrada da k^ésima inércia.

Da mesma forma, a coordenada principal para o perfil da coluna j e do componente k é a coordenada da projeção do perfil da coluna j no componente k. As coordenadas de colunas padronizadas do componente k são as principais coordenadas de coluna do componente k divididas pela raiz quadrada da k^ésima inércia.

A tabela de contingência pode ser analisada em termos dos perfis de linha ou dos perfis de coluna. Um perfil de linha é uma lista de proporções de linha que são calculadas a partir das contagens na tabela de contingência. Especificamente, o perfil da linha i é (n_i1 / _ni., n_i2 / n_i., ... , n_ic / n_i.). Um perfil de coluna é uma lista de proporções de coluna, onde n_ij, é a frequência na linha i e na coluna j da tabela e n_i., é a soma das frequências na linha i. Especificamente, o perfil da coluna j é (n_1j/ n_.j, n_2j / n_.j, ... , n_rj / n_.j), onde n_.j, é a soma das frequências na coluna j.

As duas análises são matematicamente equivalentes. A análise que você usa depende da sua aplicação. A maior parte do tempo, um pesquisador está interessado em estudar como os perfis de linha diferem entre si ou como os perfis de coluna diferente entre si.

Os perfis da linha são vetores de comprimento c e, portanto, residem em um espaço c-dimensional (similarmente, perfis de coluna residem em um espaço r-dimensional). Como esta dimensão é normalmente muito alta para permitir uma interpretação fácil, você deve tentar encontrar um subespaço de dimensão menor (preferivelmente não mais do que dois ou três) que reside perto de todos os pontos de perfil de linha (ou pontos de perfil de coluna). Você pode projetar os pontos de perfil neste subespaço e estudar as projeções. Se as projeções estiverem perto dos perfis, você não perde muitas informações. Trabalhar em duas ou três dimensões permite estudar os dados mais facilmente e, em particular, permite examinar gráficos. Este processo é análogo a escolher um pequeno número de componentes principais para resumir a variabilidade de dados contínuos.

Se d = ao menor de (r − 1) e (c − 1), os perfis da linha (ou equivalentemente os perfis da coluna) irão residir em um subespaço d-dimensional do espaço c-dimensional completo (ou equivalentemente o espaço r-dimensional completo). Assim, há, no máximo, d componentes principais.