判別分析のすべての統計量およびグラフを解釈する

判別分析によって得られるすべての統計量およびグラフの定義と解釈について解説します。

真のグループ

観測値が実際に分類されているグループ。真のグループは、ワークシートのグループ化列の値で決定します。

解釈

観測値を各グループに分類した結果を評価するには、観測値を分類するグループと真のグループを比較します。

分類の要約


真のグループ
グループに入れる123
15950
21533
30257
総数N606060
正分類数N 595357
比率0.9830.8830.950

分類要約表の列2は、53個の観測値がグループ2に正しく割り当てられていることを示しています。そのかわり、グループ2の5個の観測値はグループ1に、グループ2の2個の観測値はグループ3に分類されています。したがって、グループ2の観測値のうちの7個は、誤って他のグループに分類されていることになります。

誤分類された観測値の要約

観測値真のグループ予測変数グループグループ二乗距離確率
4**1213.5240.438
      23.0280.562
      325.5790.000
65**2112.7640.677
      24.2440.323
      329.4190.000
71**2113.3570.592
      24.1010.408
      327.0970.000
78**2112.3270.775
      24.8010.225
      329.6950.000
79**2111.5280.891
      25.7320.109
      332.5240.000
100**2115.0160.878
      28.9620.122
      338.2130.000
107**23139.02260.000
      27.36040.032
      30.52490.968
116**23131.8980.000
      27.9130.285
      36.0700.715
123**32130.1640.000
      25.6620.823
      38.7380.177
124**32126.3280.000
      24.0540.918
      38.8870.082
125**32128.5420.000
      23.0590.521
      33.2300.479

誤分類観測値の要約表の行1は、観測値4がグループ2に属すると予測されていることを示しますが、実際にはグループ1に属しています。

グループに入れる

判別分析に基づいて、観測値が属していると予測されるグループ。

解釈

観測値を各グループに分類した結果を評価するには、観測値が分類されたグループと真のグループを比較します。たとえば、次の分類要約表の行2は、1 + 53 + 3 = 57個の観測値がグループ2に分類されたことを示しています。57個の観測値のうち、53個の観測値が正しくグループ2に割り当てられました。しかし、グループ2に分類された観測値の1つは実際にはグループ1に、3つはグループ3に分類されるべきものでした。このため、グループ2に分類された観測値の4つが、実際には他のグループに分類されるべきものということになります。

分類の要約


真のグループ
グループに入れる123
15950
21533
30257
総数N606060
正分類数N 595357
比率0.9830.8830.950

総数N

個々の真のグループに含まれる観測値数の合計

正分類数

個々の真のグループに正しく配置されている観測値数。個々の真のグループの正分類数とすべてのグループの合計正分類数が表示されます。

解釈

正分類数の値を使用して、割り当てられるグループに属するデータセット内の観測値が予測される数を決定します。たとえば、グループ1では、正分類数の値は52、合計正分類数の値は60だとします。これは、ワークシートのグループ化列の値に基づいて、60という値が、グループ1に属すると区分されることを示しています。60個の観測値のうち、52個は、分析に使用する判別関数に基づいて、グループ1に属すると予測されます。したがって、個々の真のグループに正しく配置されている観測値数は52です。

比率

個々の真のグループに正しく配置されている観測値の比率。

解釈

個々のグループに正しく配置されている観測値の比率を使用して、観測値がどの程度正しく分類されるかを評価します。たとえば、分類要約表の比率は次のことを示します。

  • グループ1の観測値の98.3%が正しく配置されています。
  • グループ2の観測値の88.3%が正しく配置されています。
  • グループ3の観測値の95%が正しく配置されています。

したがって、最も問題があるのは観測値をグループ2に分類することです。

分類の要約


真のグループ
グループに入れる123
15950
21533
30257
総数N606060
正分類数N 595357
比率0.9830.8830.950

N

データセットにおける非欠損値の数です。Nは、すべてのグループの観測値数の合計と等しいです。

正当比率

グループ全体で正しく分類されている観測値の比率。この値は、観測値(N)の合計数で割った、正しく配置された観測値(正数分類)の数と等しいです。

グループ間の二乗距離

1つのグループの中心(平均)から、もう1つのグループの中心(平均)までの二乗距離。観測値とグループの中心(平均)間の二乗距離(マハラノビス距離)が最小の場合、観測値はそのグループに分類されます。

2次関数を使用する場合、一般化二乗距離表が表示されます。関数ごとの二乗距離の計算方法の詳細は、判別分析の距離および判別関数を参照してください。

解釈

距離の値自体はあまり情報を含んでいませんが、複数の距離を比較することで、グループ間の違いを確認できます。たとえば、次の結果では、距離が最大になるのはグループ1と3の間(48.0911)であることを示しています。グループ1と2の距離は12.9853、グループ2と3の距離は11.3197です。

グループ間の二乗距離

123
10.000012.985348.0911
212.98530.000011.3197
348.091111.31970.0000

グループに対する線形判別関数

グループに対する線形判別関数は、グループごとに関連のある1次式を示します。各グループの線形判別得点は、重回帰分析の回帰係数に相当します。

解釈

グループに対する線形判別関数を使用して、予測変数によりグループ間を差別化する方法を判断します。たとえば、3つのグループがある場合、Minitabでは、次のグループ間で判別を行うための関数が推定されます。
  • グループ1とグループ2、3の間
  • グループ2とグループ1、3の間
  • グループ3とグループ1、2の間

最大の線形判別関数、つまり回帰係数を持つグループが、観測値の分類に最も寄与します。たとえば、次の結果では、グループ1で検定スコアの線形判別関数が最大(17.4)になり、グループ1の検定スコアが、グループ2やグループ3の検定スコアよりも、グループのメンバーの分類に際して寄与度が大きいことを示します。モチベーションでは、グループ3の線形判別関数が最大であり、グループ3のモチベーションスコアが、グループ1やグループ2のモチベーションスコアよりも、グループのメンバーの分類に際して寄与度が大きいことを示します。

グループに対する線形判別関数

123
定数-9707.5-9269.0-8921.1
テストの得点17.417.016.7
やる気-3.2-3.7-4.3

併合平均

併合平均は、個々の真のグループの平均値の加重平均です。併合平均を表示するには、オプションをクリックして、分析を実行するときに上記と平均、標準偏差、共分散要約を選択する必要があります。

解釈

併合平均を使用して、データ内の観測値すべての中心を説明します。たとえば、次の結果では、すべてのグループの検定全体のスコア平均は1102.1となります。

グループ平均



グループの平均
変数併合平均123
テストの得点1102.11127.41100.61078.3
やる気47.05653.60047.41740.150

グループの平均

真のグループごとの値の合計を真のグループごとの(非欠損)値の数で割ったもの。グループの平均を表示するには、オプションをクリックして、分析を実行するときに上記と平均、標準偏差、共分散要約を選択する必要があります。

解釈

グループ平均を使用して、データの中心を表す1つの値でそれぞれの真のグループを説明します。たとえば、次の結果では、グループ1に平均検定スコアの最大値(1127.4)があり、グループ3には平均検定スコアの最小値(1078.3)があります。グループ2の平均検定スコアはその中間(1100.6)にあります。

グループ平均



グループの平均
変数併合平均123
テストの得点1102.11127.41100.61078.3
やる気47.05653.60047.41740.150

併合標準偏差

併合標準偏差は、真のグループごとの標準偏差の重み付き平均です。併合標準偏差を表示するには、オプションをクリックして、分析を実行するときに上記と平均、標準偏差、共分散要約を選択する必要があります。

解釈

併合標準偏差を使用して、真のグループ平均の周辺での個別データ点の拡散程度を判断します。たとえば、次の結果では、すべてのグループの検定スコアの併合標準偏差は8.109となります。

グループ標準偏差



グループの標準偏差
変数併合標準偏差123
テストの得点8.1098.3089.2666.511
やる気2.9942.4093.2433.251

グループの標準偏差

散布度、つまり平均からのデータの広がり方を表す、最も一般的な測度です。グループの標準偏差は、真のグループごとの標準偏差です。グループの標準偏差を表示するには、オプションをクリックして、分析を実行するときに上記と平均、標準偏差、共分散要約を選択する必要があります。

解釈

グループの標準偏差を使用して、真のグループごとの平均からのデータの拡散程度を判断します。たとえば、次の結果では、グループ2の検定スコアに標準偏差の最大値(9.266)があります。このことは、グループ2の検定スコアのばらつきが、3つのグループの中でいちばん大きいことを示しています。グループ3に最小の標準偏差(6.511)があり、3つのグループの中でばらつきがいちばん小さいことになります。

グループ標準偏差



グループの標準偏差
変数併合標準偏差123
テストの得点8.1098.3089.2666.511
やる気2.9942.4093.2433.251

併合共分散行列

すべてのグループのすべての観測値どうしの関係を表す加重行列。併合共分散行列は、各グループの共分散行列の平均を要素ごとに求めることで計算されます。

併合共分散行列を表示するには、オプションをクリックして、分析を実行するときに上記と平均、標準偏差、共分散要約を選択する必要があります。

共分散行列

変数ペア間の関連性を示す非標準化行列。共分散は、変数の標準偏差の積で共分散を除算した値である相関係数に似ています。

グループごとの共分散行列を表示するには、オプションをクリックして、分析を実行するときに上記と平均、標準偏差、共分散要約を選択する必要があります。

観測値

観測値ごとの観測値数。観測値数は、分類された観測値のMinitabワークシート内での行に対応します。Minitabでは、観測値が誤分類された場合(つまり真のグループが予測グループと異なる場合)に、観測値のうしろに**のマークが表示されます。

データの観測ごとに予測された真のグループを確認するには、オプションをクリックして、分析実行時に上記と完全分類要約を選択する必要があります。

予測グループ

観測値ごとの予測グループは、予測二乗距離に基づいて観測値に割り当てられたグループメンバーシップです。データの観測ごとに予測された真のグループを確認するには、オプションをクリックして、分析実行時に上記と完全分類要約を選択する必要があります。

解釈

観測値ごとの予測グループと真のグループを比較して、観測値が正しく分類されているかを判断します。予測グループが真のグループと異なる場合、観測値は誤分類されます。

X変数グループ

交差検証(X変数)を使用して予測されたグループは、交差検証を使用して予測された二乗距離に基づいて観測値に割り当てられるグループの所属です。各観測値の交差検証を使用して予測されたグループを確認するには、分析実行時にメインダイアログボックスの交差検証を使うを選択して、オプションをクリックし、上記と完全分類要約を選択します。

解釈

交差検証を使用して予測されたグループと観測値ごとの真のグループを比較して、観測値が正確に分類されたかを判断します。交差検証を使用して予測されたグループが真のグループと異なる場合、観測値は誤って分類されたことになります。

重要

交差検証を使用して予測されたグループは、観測値を除外し、判別ルールを作成してそのルールが特定の観測値でどの程度機能しているかを確認します。交差検証を使用しない場合、その観測値を使用してルールを作成すると、判別ルールは偏ります。

二乗距離

各グループの観測値ごとの予測された二乗距離の値。二乗距離の値は、観測値が各グループ平均からどれだけ離れているかを示します。データ内の観測値ごとの二乗距離を確認するには、オプションをクリックして、分析を実行するときに上記と完全分類要約を選択する必要があります。

分析実行時に交差検証を使用する場合、Minitabでは、交差検証(X変数)ありと交差検証なし(予測変数)の両方の各観測値の予測二乗距離を計算します。二乗距離の計算方法の詳細は、判別分析の距離および判別関数を参照してください。