単純コレスポンデンス分析の度数とカイ二乗距離

単純コレスポンデンス分析の度数とカイ二乗距離によって得られるすべての統計量およびグラフの定義と解釈について解説します。

分割表

分割表は、複数のカテゴリ変数に従って観測値を集計する表です。表の行と列は、カテゴリ変数に対応しています。この表には、変数の各水準の周辺合計も含まれます。

単純コレスポンデンス分析の分割表は、2つの変数の観測値を集計する2元表です。組み合わせるサブダイアログボックスを使用して、3つまたは4つの変数の観測値をカテゴリ化し、変数を交差させて2元表の行および・または列を作成することもできます。

解釈

分割表を使用して、行カテゴリと列カテゴリで定義されるセルごとの観測頻度を表示します。列と行の合計を使用して、カテゴリごとの合計頻度を確認します。

分割表

ABCDE合計
地質学3.00019.00039.00014.00010.00085.000
生物化学1.0002.00013.0001.00012.00029.000
化学6.00025.00049.00021.00029.000130.000
動物学3.00015.00041.00035.00026.000120.000
物理学10.00022.00047.0009.00026.000114.000
工学3.00011.00025.00015.00034.00088.000
微生物学1.0006.00014.0005.00011.00037.000
植物学0.00012.00034.00017.00023.00086.000
統計学2.0005.00011.0004.0007.00029.000
数学2.00011.00037.0008.00020.00078.000
合計31.000128.000310.000129.000198.000796.000

次の2元分割表は、学問分野や資金カテゴリ(A、B、C、D、E)ごとの研究者の観測回数を示しています。「合計」列は、研究者の大半が、化学(130)、動物学(120)、物理学(114)の分野を専門としていることを示しています。「合計」行は、研究者の大半が、資金カテゴリC(310)に分類されることを示しています。セル度数では、資金カテゴリCに分類される化学の研究者の観測頻度が最大(49)となっています。

期待度数

観測度数は、変数が互いに独立している場合の、期待されるセル内の観測値の度数です。Minitabでは、期待度数を、行の合計と列の合計を掛け合わせて、観測値の合計数で割って計算します。

期待度数

ABCDE
地質学3.31013.66833.10313.77521.143
生物化学1.1294.66311.2944.7007.214
化学5.06320.90550.62821.06832.337
動物学4.67319.29646.73419.44729.849
物理学4.44018.33244.39718.47528.357
工学3.42714.15134.27114.26121.889
微生物学1.4415.95014.4105.9969.204
植物学3.34913.82933.49213.93721.392
統計学1.1294.66311.2944.7007.214
数学3.03812.54330.37712.64119.402

次の期待度数表は、資金と学問分野の関係が独立しているものとして、学問分野と資金カテゴリ(A、B、C、D、E)ごとの研究者の期待度数を示します。研究者の大半が化学に、大半の学部が資金カテゴリCに属しているので、これらのカテゴリの組み合わせの期待が最も高くなります(およそ51)。

観測度数ー期待度数

観測度数-期待度数は、変数が互いに独立している場合の、実際のセル内の観測値の度数と期待するセル内の観測値の度数の差です。

解釈

観測度数と期待度数の差を使用して、データ内の起こりうる関係の根拠があるかどうかを確認します。2つの変数が関連している場合、1つの変数に対する観測値の分布はもう1つの変数のカテゴリに応じて異なります。結果的に、観測度数と期待度数の差の大きさは相対的に大きくなります。2つの変数が独立している場合、1つの変数に対する観測値の分布はもう1つの変数の全カテゴリと類似します。結果的に、観測度数と期待度数の差の大きさは相対的に小さくなります。

観測度数-期待度数

ABCDE
地質学-0.3105.3325.8970.225-11.143
生物化学-0.129-2.6631.706-3.7004.786
化学0.9374.095-1.628-0.068-3.337
動物学-1.673-4.296-5.73415.553-3.849
物理学5.5603.6682.603-9.475-2.357
工学-0.427-3.151-9.2710.73912.111
微生物学-0.4410.050-0.410-0.9961.796
植物学-3.349-1.8290.5083.0631.608
統計学0.8710.337-0.294-0.700-0.214
数学-1.038-1.5436.623-4.6410.598

この表では、観測度数と期待度数の差の大きさは、動物学かつ資金カテゴリD(15.553)や工学かつ資金カテゴリE(12.111)の場合に相対的に大きくなります。これらのセルでは、観測度数は、変数が独立している場合に期待する度数よりも大きくなります。差の大きさは、地質学かつ資金カテゴリE(-11.143)の場合にも相対的に大きくなります。この度数では、観測度数は、変数が独立している場合に期待する度数よりも小さくなります。このため、工学部の資金調達難は期待よりもかなり大きく、地質学部の資金調達難は期待よりもかなり小さいと結論付けられます。

カイ二乗距離

Minitabでは、各セルのカイ二乗統計量への寄与度がカイ二乗距離として表示されます。各セルのカイ二乗距離は、各セルの相違に起因する合計カイ二乗統計量を定量化します。

Minitabでは、各セルのカイ二乗統計量への寄与度が、そのセルの期待値で割った、セルの観測値と期待値の間の差の平方として計算されます。カイ二乗合計は、すべてのセルの値の和です。

解釈

セルごとのカイ二乗距離を比較して、カイ二乗合計に最も寄与するセルを評価できます。観測セル度数と期待セル度数が大きく異なる場合、セルのカイ二乗値は大きくなります。このため、セル内のカイ二乗距離が大きくなるほど、行と列のカテゴリ間の関係性が期待されるよりも強くなることがあることを示します。

カイ二乗距離

ABCDE合計
地質学0.0292.0801.0500.0045.8739.036
生物化学0.0151.5210.2582.9133.1767.882
化学0.1730.8020.0520.0000.3441.373
動物学0.5990.9570.70312.4380.49615.194
物理学6.9640.7340.1534.8590.19612.906
工学0.0530.7022.5080.0386.70010.001
微生物学0.1350.0000.0120.1660.3510.663
植物学3.3490.2420.0080.6730.1214.393
統計学0.6710.0240.0080.1040.0060.814
数学0.3540.1901.4441.7040.0183.710
合計12.3437.2526.19622.89917.28265.972

この表では、動物学と資金カテゴリDのセルが12.438であり、全体カイ二乗(65.972)への寄与度が最も大きいです。行カテゴリの中では、動物学(15.194)、物理学(12.906)、工学(10.001)が全体カイ二乗に最も寄与します。列カテゴリの中では、資金水準D(22.899)とE(17.282)が全体カイ二乗に最も寄与します。

相対的変動

セル変動は、セル内のカイ二乗値を分割表の総度数で割った値です。すべてのセル変動の和は、全変動(または単に「変動」)と呼びます。セルの相対的変動は、セル変動を全変動で割った数です。行の相対的変動は、行のセル変動の和を全変動で割った数です。列の相対的変動は、列のセル変動の和を全変動で割った数です。

解釈

相対的変動を使用して、カテゴリとデータ内の分散への寄与度の関係の強さを評価します。値が高いほど、一般的には、関係性は強くなり、データ内の期待値から得られるばらつき全体の比率が大きくなることを示します。

相対的変動

ABCDE合計
地質学0.0000.0320.0160.0000.0890.137
生物化学0.0000.0230.0040.0440.0480.119
化学0.0030.0120.0010.0000.0050.021
動物学0.0090.0150.0110.1890.0080.230
物理学0.1060.0110.0020.0740.0030.196
工学0.0010.0110.0380.0010.1020.152
微生物学0.0020.0000.0000.0030.0050.010
植物学0.0510.0040.0000.0100.0020.067
統計学0.0100.0000.0000.0020.0000.012
数学0.0050.0030.0220.0260.0000.056
合計0.1870.1100.0940.3470.2621.000

相対的変動表は、カイ二乗統計量の合計に対する各セルの相対寄与度を示します。セル内の相対的変動が大きくなるほど、行と列のカテゴリ間の関係は強くなります。この表では、動物学と資金カテゴリDのセルの相対的変動が最大(0.189)になり、表の中で最も強い関連性となります。この表は、行ごと、列ごとの相対的変動の全体を示しています。