単純コレスポンデンス分析の方法

単純コレスポンデンス分析では、分割表の重み付け主成分が実行されます。分割表にr行とc列がある場合、土台となる次元数が(r − 1)または(c − 1)のどちらか小さい方になります。主成分と同様に、ばらつきは分割されますが、分散全体を分割するのではなく、単純コレスポンデンス分析によりピアソンχ2統計量(基本的には、関連付けのためにχ2検定で計算される統計量と同じです)を分割します。

従来、コレスポンデンス分析では、χ2 / nを使用しますが、Χ2というよりも変動または全変動と言った方がよいかもしれません。すべての主成分と関係する変動を合計したものが全変動です。第1成分、第2成分、または第3成分が全変動の大部分を占めるのが理想的です。

低い次元の部分空間は、主軸(主成分とも呼ばれる)の対象となります。第1主軸が選択された結果、第1主軸は全変動の最大量を占め、第2主軸が選択された結果、第2主軸は残りの変動の最大量を占めます。第1主軸は最適な1次元部分空間(適切な基準を使用してプロファイルに最も近くなります)を対象とし、最初の2つの成分軸は最適な2次元部分空間を対象とします。これらの部分空間はネスト(入れ子構造)しており、最適な1次元部分空間が最適な2次元部分空間の部分空間であることを示しています。

行プロファイルiと成分(軸)kの主座標は、行プロファイルiを成分kに投影した座標です。成分kの標準化された行座標は、成分kの主座標をk番目の変動の平方根で割った値です。

同様に、列プロファイルjと成分kの主座標は、列プロファイルjを成分kに投影した座標です。成分kの標準化された列座標は、成分kの主列座標をk番目の変動の平方根で割った値です。

分割表は、行プロファイルまたは列プロファイルの観点で分析できます。行プロファイルは、分割表の度数から計算される行の比率の一覧です。特に、行iのプロファイルは(ni1 / ni., ni2 / ni., ..., nic / ni.)です。列プロファイルは、列の比率の一覧(nijは表の行iと列jの度数、ni.は行iの度数の和)です。特に、列jのプロファイルは(n1j / n.j, n2j / n.j, ... , nrj / n.j)であり、n.jは列jの度数の和です。

2つの分析は数学的に等価です。使用する分析は用途によって変わります。たいていの場合、研究者は、行プロファイル同士の差異または列プロファイル同士の差異を分析することに関心があります。

行プロファイルは、長さcのベクトルであり、このため、c次元空間に(同様に、列プロファイルはr次元空間に)あります。この次元は通常、高すぎて解釈しやすくはできないので、すべての行プロファイルの点(または列プロファイルの点)に近い、より低次の部分空間を見つける必要があります。プロファイルの点をこうした部分空間に投影して、この投影を分析できます。投影がこれらのプロファイルに近い場合、あまり多くの情報を失うことはありません。2次元または3次元で作業することにより、データを簡単に分析できるようになり、特に、プロットを調べることができます。この処理は、少数の主成分を選択して、連続データのばらつきを要約することと似ています。

d = (r − 1)か(c − 1)のいずれか小さい方の場合、行プロファイル(つまり、列プロファイル)は、完全なc次元空間(つまり、完全なr次元空間)のd次元部分空間にあります。したがって、多くてもd個までの主成分があります。