多重コレスポンデンス分析のすべての統計量およびグラフを解釈する

多重コレスポンデンス分析によって得られるすべての統計量およびグラフの定義と解釈について解説します。

Minitabでは、主成分とも呼ばれる各成分軸を計算します。Minitabは、全変動の割合が大きい順に主成分を並べます。最初の主成分(軸)は変動の最も大きな割合を占めます。第2主成分(軸)は、残りの変動の最も大きな割合を占めます。

解釈

主軸を使用して、データのばらつきの大部分を占める成分を評価します。

指標行列の分析

変動比率累積ヒストグラム
10.40320.40320.4032******************************
20.25200.25200.6552******************
30.18990.18990.8451**************
40.15490.15491.0000***********
合計1.0000     

これらの結果は、全変動が4つの成分に分解されたことを示しています。4成分で説明される全変動は1.000です。全変動のうち、第1成分は変動の40.32%を占め、第2成分は変動の25.20%を占めます。これら2つの成分で全変動の65.52%を占めます。このため、2つの成分を分析に指定することは十分ではないかもしれません。第3成分を追加することにより、変動の累積比率は84.51%まで上昇します。

変動

成分の変動は、成分が説明する分散量を説明します。列の変動は、相関性のあるカテゴリ変数がないという前提で、このカテゴリーの値と期待値の差異を説明します。成分の変動を計算するため、Minitabでは、カテゴリごとの変動にその成分のカテゴリの相関を掛けて、それらの積を合計します。

解釈

成分の変動を使用して、データのばらつきの大部分を占める成分を判断します。

指標行列の分析

変動比率累積ヒストグラム
10.40320.40320.4032******************************
20.25200.25200.6552******************
30.18990.18990.8451**************
40.15490.15491.0000***********
合計1.0000     

これらの結果は、全変動を4つの成分に分解することを示します。4成分で説明される全変動は1.000です。全変動のうち、第1成分(軸)は変動の40.32%、第2成分は25.20%を占めます。これらの2成分で、全変動の65.52%を占めます。このため、2つの成分を分析に指定しただけでは不十分かもしれません。3番目の成分を追加することにより、変動の累積比率は84.51%に上昇します。

列の変動を使用して、相関性のあるカテゴリ変数はないことを前提として、最も異常なカテゴリを判断します。列の変動では、(1/カテゴリ数)から得られる差は、最も異常なカテゴリがあることを示しています。

列寄与度






成分1成分2
ID名前品質質量変動座標相関寄与座標相関寄与
1小さい0.96550.04240.20760.38140.02970.0153-2.13940.93570.7707
2基準0.96550.20760.0424-0.07800.02970.00310.43740.93570.1576
3車外放出なし0.47390.21340.0366-0.28440.47170.0428-0.01970.00230.0003
4車外放出あり0.47390.03660.21341.65870.47170.24970.11510.00230.0019
5衝突0.61330.19260.0574-0.42640.60950.08680.03380.00380.0009
6転倒0.61330.05740.19261.42940.60950.2911-0.11330.00380.0029
7軽度0.56800.13530.1147-0.65230.50180.1428-0.23710.06630.0302
8重度0.56800.11470.13530.76920.50180.16840.27950.06630.0356

列寄与度表では、変動という列は、各カテゴリが寄与する全変動の比率です。したがって、車外放出ありが期待値から最も離れており、カイ二乗統計量の全体に21.3%に寄与します。

比率、累積、ヒストグラム

比率は、各主成分(軸)が説明する全変動(すべての成分で説明される変動)の比率を示します。成分は、比率の最大値から降順で表示されます。各比率はヒストグラムで視覚的に表現されます。

累積比率は、成分(軸)が追加されたときの比率の累積和を示します。

解釈

比率と累積比率を使用して、全変動の大部分を十分に説明する成分数を決定しやすくします。2つまたは3つの成分が全変動の大部分を占め、他の成分よりも重要であるのが理想的です。

指標行列の分析

変動比率累積ヒストグラム
10.40320.40320.4032******************************
20.25200.25200.6552******************
30.18990.18990.8451**************
40.15490.15491.0000***********
合計1.0000     

これらの結果は、全変動を4つの成分に分解することを示します。4成分で説明される全変動は1.000です。全変動のうち、第1成分(軸)は変動の40.32%、第2成分は25.20%を占めます。これらの2成分で、全変動の65.52%を占めます。このため、2つの成分を分析に指定しただけでは不十分かもしれません。3つ目の成分を追加することにより、変動の累積比率は84.51%まで上昇します。

品質

品質(Qual)は、選択した次元数における原点からの点の二乗距離を、最大次元数によって定義される空間における原点からの二乗距離で割ったもの。Minitabではカテゴリごとの品質の値を計算します。

解釈

品質の値を使用して、カテゴリごとの成分によって表される変動の比率を判断します。品質の値は常に0~1の範囲にあります。品質の値が大きいほど、行または列は成分によって十分に表現されます。品質の値が小さいほど、十分に表現されないことを示します。品質の値により、成分は解釈しやすくなります。

列の寄与度の値を使用して、各成分の変動に最も寄与するカテゴリを評価します。

列寄与度






成分1成分2
ID名前品質質量変動座標相関寄与座標相関寄与
1小さい0.96550.04240.20760.38140.02970.0153-2.13940.93570.7707
2基準0.96550.20760.0424-0.07800.02970.00310.43740.93570.1576
3車外放出なし0.47390.21340.0366-0.28440.47170.0428-0.01970.00230.0003
4車外放出あり0.47390.03660.21341.65870.47170.24970.11510.00230.0019
5衝突0.61330.19260.0574-0.42640.60950.08680.03380.00380.0009
6転倒0.61330.05740.19261.42940.60950.2911-0.11330.00380.0029
7軽度0.56800.13530.1147-0.65230.50180.1428-0.23710.06630.0302
8重度0.56800.11470.13530.76920.50180.16840.27950.06630.0356

この分析では、自動車事故に関連するデータに対して2つの主成分を計算します。「列の寄与度」表では、品質の最大値は、車のサイズが「小さい」場合(0.965)と「標準」の場合(0.965)に発生しています。したがって、この2つのカテゴリを最も表しているのは、2つの成分です。運転手の車外放出が最も表現されず、品質の値は「車外放出あり」でも「車外放出なし」でも0.474です。「転倒」(0.291)と「車外放出あり」(0.250)が成分1の変動に最も寄与しています。車のサイズが「小さい」(0.771)と「標準」(0.158)は、成分2の変動に最も寄与しています。ただし、2つの成分はこれらのデータのばらつきを十分には説明できないので、これらの結果は注意して解釈する必要があります。

質量

質量は、各カテゴリの相対度数の行列の合計です。列の質量は、列内にあるすべての度数の和を、すべての度数の和で割ったものです。

解釈

質量を使用して、列カテゴリごとの比率を判断します。質量の値が大きい場合、列カテゴリの相対度数が大きくなることを示します。すべての列カテゴリの合計質量は1(100%)と等しくなります。

列寄与度






成分1成分2
ID名前品質質量変動座標相関寄与座標相関寄与
1小さい0.96550.04240.20760.38140.02970.0153-2.13940.93570.7707
2基準0.96550.20760.0424-0.07800.02970.00310.43740.93570.1576
3車外放出なし0.47390.21340.0366-0.28440.47170.0428-0.01970.00230.0003
4車外放出あり0.47390.03660.21341.65870.47170.24970.11510.00230.0019
5衝突0.61330.19260.0574-0.42640.60950.08680.03380.00380.0009
6転倒0.61330.05740.19261.42940.60950.2911-0.11330.00380.0029
7軽度0.56800.13530.1147-0.65230.50180.1428-0.23710.06630.0302
8重度0.56800.11470.13530.76920.50180.16840.27950.06630.0356

この列寄与度表は、車の事故と関係のある列カテゴリを評価します。「車外放出なし」のカテゴリが最大(0.213)の質量を持ち、データの21.3%を占めます。「車外放出あり」のカテゴリが最小の質量(0.037)を持ち、データの3.7%を占めます。したがって、これらのデータから、運転者の車外放出が起こった事故はかなり少ない一方で、運転者の車外放出が起こらなかった事故は多いことがわかります。

座標(Coord)

Minitabでは、成分ごとの主列座標(Coord)を計算します。主列座標は、列プロットに表示される座標です。

列の主座標によって定義されるデータ点を視覚的に表示するには、列プロットを使用します。

相関(Corr)

列の相関値は、各成分の列変動への寄与度を表しています。相関値は0~1の範囲になります。

解釈

相関値を使用して、列変動の寄与度の観点で各成分を解釈します。1に近い値は、成分は大きな変動量を占めることを示します。0に近い値は、成分は変動にほとんど寄与しないことを示します。

列寄与度






成分1成分2
ID名前品質質量変動座標相関寄与座標相関寄与
1小さい0.96550.04240.20760.38140.02970.0153-2.13940.93570.7707
2基準0.96550.20760.0424-0.07800.02970.00310.43740.93570.1576
3車外放出なし0.47390.21340.0366-0.28440.47170.0428-0.01970.00230.0003
4車外放出あり0.47390.03660.21341.65870.47170.24970.11510.00230.0019
5衝突0.61330.19260.0574-0.42640.60950.08680.03380.00380.0009
6転倒0.61330.05740.19261.42940.60950.2911-0.11330.00380.0029
7軽度0.56800.13530.1147-0.65230.50180.1428-0.23710.06630.0302
8重度0.56800.11470.13530.76920.50180.16840.27950.06630.0356

この列寄与度表は、車の事故に関連する列カテゴリを評価します。成分1は、事故タイプ(衝突と転倒の相関が0.610)の変動の大部分を占めますが、車のサイズ(「小さい」と「標準」の相関が0.030)の変動はほとんど説明しません。

寄与(Contr)

成分ごとの変動への列カテゴリのごとの寄与度(Contr)。

解釈

列カテゴリの寄与度の値を使用して、成分を解釈します。

列寄与度






成分1成分2
ID名前品質質量変動座標相関寄与座標相関寄与
1小さい0.96550.04240.20760.38140.02970.0153-2.13940.93570.7707
2基準0.96550.20760.0424-0.07800.02970.00310.43740.93570.1576
3車外放出なし0.47390.21340.0366-0.28440.47170.0428-0.01970.00230.0003
4車外放出あり0.47390.03660.21341.65870.47170.24970.11510.00230.0019
5衝突0.61330.19260.0574-0.42640.60950.08680.03380.00380.0009
6転倒0.61330.05740.19261.42940.60950.2911-0.11330.00380.0029
7軽度0.56800.13530.1147-0.65230.50180.1428-0.23710.06630.0302
8重度0.56800.11470.13530.76920.50180.16840.27950.06630.0356

列寄与度表では、自動車事故に関する列カテゴリを評価します。車外放出あり(Contr = 0250)と転倒(Contr = 0.291)は成分1の変動に最も寄与します。車のサイズの「小さい」(Contr = 0.771)と「標準」(Contr = 0.158)は、成分2の変動に最も寄与します。

列プロット

列プロットは列カテゴリの主列座標を示します。列の点は青色の四角形としてプロットされ、通常の点はぬりつぶした四角形、追加点は中抜きの四角形です。

デフォルトでは最初の2つの主成分の点が表示され、これらが全変動のうちで最も多い量を占めます。主成分(軸)をプロットに表示するには、分析を実行するときにグラフをクリックして、成分数を入力してます。

解釈

列プロットを使用して、列カテゴリ間の関係を確認して、列カテゴリに関係のある主成分を解釈しやすくします。原点からかなり離れているデータ点は、影響力が大きいカテゴリを示します。プロットの両端にあるデータ点は、成分がこれらのカテゴリを対比することを示します。

この列プロットでは、車外放出ありと転倒が、成分1の水平軸の原点から最も離れています。これは、成分1のこうしたカテゴリで相対的に高い寄与度に当てはまります。重度と軽度だけでなく、車外放出ありと車外放出なしも原点の反対側にあるので、成分1は、これらのカテゴリを対比します。成分2では、垂直軸で示されています。車のサイズ「小さい」が、垂直軸の片側にある他のカテゴリから離れて位置しています。したがって、成分2では、「小さい」車のサイズとその他のカテゴリを対比します。

指標表

指標表は、指標変数の形式でデータのすべての観測値を表示します。各指標変数(列)はカテゴリ変数の1つの水準を表し、各観測値(行)は2値(カテゴリに属するときは1、カテゴリに属さないときは0)を取ります。このため、すべての列を0または1のいずれかにする必要があります。

結果に指標表を組み込むには、結果をクリックして、分析実行時にこのオプションを選択して指標表を表示する必要があります。

この指標表の行1にある1つ目の観測値は、標準体重の男性が、タバコを吸い、定期的に運動をしていることを示します。行2にある2つ目の観測値は、過体重の女性が、タバコを吸わず、定期的に運動していることを示しています。
C1 C2 C3 C4 C5 C6 C7 C8 C8
男性 女性 標準体重 低体重 過体重 喫煙 非喫煙 活動あり 活動性なし
1 0 1 0 0 1 0 1 0
0 1 0 0 1 0 1 1 0
0 1 1 0 0 0 1 0 1
1 0 1 0 0 0 1 1 0
0 1 0 1 0 0 1 0 1
0 1 0 0 1 1 0 0 1

バート(Burt)表

バート(Burt)表は、カテゴリ変数間の関係を視覚的に表示し分析するために使用される対称行列です。結果に指標表を組み込むには、結果をクリックして、分析実行時にこのオプションを選択して指標表を表示する必要があります。

バート(Burt)表には、各カテゴリ変数の各水準(カテゴリ)に1つずつ列と行があります。たとえば、データが、性別(男性、女性)、活動水準(低、中、高)、年齢(<20、20-50、>50)の3つのカテゴリに分かれる場合、Burt表には、2 + 3 + 3 = 8により、8つの行と8つの列が作成されることになります。
  男性 女性 <20 20-50 >50
男性 87 0 33 45 9 26 47 14
女性 0 163 27 111 25 43 89 31
33 27 60 0 0 14 48 7
45 111 0 111 0 14 107 18
9 25 0 0 79 9 30 3
<20 26 43 14 14 9 37 0 0
20-50 47 89 48 107 30 0 185 0
>50 14 31 7 18 3 0 0 28

バート(Burt)表の各エントリは、対応する行および列のカテゴリを満たす観測値の数を示します。たとえば、行1および列3のエントリは、男性および活動水準「低」の両方を満たす観測値の数(33)を示しています。行1および列2のエントリは、男性および女性の両方を満たす観測値の数(0)を示しています。

各カテゴリの観測値の合計数は、左上から右下に伸びている対角線上のエントリで判断でき、それぞれのエントリの列見出しと行見出しは同じになっています。たとえば、行1および列1のエントリは男性の合計数(87)を示し、行2および列2のエントリは女性の合計数(163)を示しています。