主成分分析のすべての統計量およびグラフを解釈する

主成分分析によって得られるすべての統計量およびグラフの定義と解釈について解説します。

固有値

固有値(特性値または潜在根とも呼ばれる)は主成分の分散です。

解釈

固有値のサイズを使用して主成分の数を決定できます。固有値が最大の主成分を保持します。たとえば、カイザー基準を使用して、1より大きな固有値を持つ主成分のみを使用します。

固有値のサイズを視覚的に比較するには、固有値(Scree)プロットを使用します。固有値プロットにより、固有値のサイズを基に成分の数は決定しやすくなります。

主成分分析: 収入, 学歴, 年齢, 居住年数, 勤続年数, 貯蓄, 借金, ...

相関行列の固有分析 固有値 3.5476 2.1320 1.0447 0.5315 0.4112 0.1665 0.1254 0.0411 比率 0.443 0.266 0.131 0.066 0.051 0.021 0.016 0.005 累積 0.443 0.710 0.841 0.907 0.958 0.979 0.995 1.000
固有ベクトル 変数 PC1 PC2 PC3 PC4 PC5 PC6 PC7 収入 0.314 0.145 -0.676 -0.347 -0.241 0.494 0.018 学歴 0.237 0.444 -0.401 0.240 0.622 -0.357 0.103 年齢 0.484 -0.135 -0.004 -0.212 -0.175 -0.487 -0.657 居住年数 0.466 -0.277 0.091 0.116 -0.035 -0.085 0.487 勤続年数 0.459 -0.304 0.122 -0.017 -0.014 -0.023 0.368 貯蓄 0.404 0.219 0.366 0.436 0.143 0.568 -0.348 借金 -0.067 -0.585 -0.078 -0.281 0.681 0.245 -0.196 クレジットカード数 -0.123 -0.452 -0.468 0.703 -0.195 -0.022 -0.158 変数 PC8 収入 -0.030 学歴 0.057 年齢 -0.052 居住年数 -0.662 勤続年数 0.739 貯蓄 -0.017 借金 -0.075 クレジットカード数 0.058

これらの結果では、最初の3つの主成分の固有値は1よりも大きいです。これらの3つの成分は、データ分散の84.1%を説明します。固有値プロットは、固有値が直線になるのは3つの主成分の後であることを示しています。84.1%がデータで説明される十分な分散量である場合、最初の3つの主成分を使用する必要があります。

比率

「比率」は、各主成分が説明するばらつきの比率です。

解釈

比率を使用して、どの主成分がデータのばらつきの大部分を説明するかを判断します。比率が高いほど、主成分が説明するばらつきが大きくなります。比率のサイズは、主成分を保持するのに十分なほど重要かを判断しやすくします。

たとえば、0.621の比率を持つ主成分は、データのばらつきの62.1%を説明します。したがって、この成分を含めることは重要です。別な成分の比率は0.005であり、データのばらつきの0.5%しか説明しません。この成分は、含めるほど重要とは言えません。

累積

累積は、連続主成分によって説明されるサンプルのばらつきの累積比率です。

解釈

累積比率を使用して、連続主成分が説明する分散の総量を評価します。累積比率により、使用する主成分の数を決定しやすくなります。許容可能な水準の分散を説明する主成分を保持します。許容可能な水準は用途によって変わります。

たとえば、記述目的だけで主成分を使用する場合、主成分によって説明される分散の80%しか必要ありません。しかし、データを別の方法で分析する場合は、主成分によって説明される分散が少なくとも90%は必要になります。

主成分(PC)

主成分は、データの分散を説明する元の変数の線形結合です。抽出される成分の最大数は、変数の個数と常に同じです。各変数に対応する係数で構成される固有ベクトルは、主成分スコアの計算で使用します。係数は、成分の各変数の相対的な重みを示します。

相関行列を使用する場合、正しい成分スコアを得るには、変数を標準化する必要があります。

解釈

各主成分を解釈するには、元の変数の係数の大きさと向きを調べます。係数の絶対値が大きくなるほど、成分を計算するうえで対応する変数が重要になります。係数が重要だとみなされるために係数の絶対値がどの程度大きくならなければいけないかという点は主観的です。専門知識を使用して、相関値が重要になる水準を決定します。

主成分分析: 収入, 学歴, 年齢, 居住年数, 勤続年数, 貯蓄, 借金, ...

相関行列の固有分析 固有値 3.5476 2.1320 1.0447 0.5315 0.4112 0.1665 0.1254 0.0411 比率 0.443 0.266 0.131 0.066 0.051 0.021 0.016 0.005 累積 0.443 0.710 0.841 0.907 0.958 0.979 0.995 1.000
固有ベクトル 変数 PC1 PC2 PC3 PC4 PC5 PC6 PC7 収入 0.314 0.145 -0.676 -0.347 -0.241 0.494 0.018 学歴 0.237 0.444 -0.401 0.240 0.622 -0.357 0.103 年齢 0.484 -0.135 -0.004 -0.212 -0.175 -0.487 -0.657 居住年数 0.466 -0.277 0.091 0.116 -0.035 -0.085 0.487 勤続年数 0.459 -0.304 0.122 -0.017 -0.014 -0.023 0.368 貯蓄 0.404 0.219 0.366 0.436 0.143 0.568 -0.348 借金 -0.067 -0.585 -0.078 -0.281 0.681 0.245 -0.196 クレジットカード数 -0.123 -0.452 -0.468 0.703 -0.195 -0.022 -0.158 変数 PC8 収入 -0.030 学歴 0.057 年齢 -0.052 居住年数 -0.662 勤続年数 0.739 貯蓄 -0.017 借金 -0.075 クレジットカード数 0.058

これらの結果では、最初の主成分は、年齢、居住年数、勤続年数、貯蓄と大きな正の関係があります。この成分を、申請者の長期的な財務安定性の主な測度として解釈できます。2番目の成分は、借金、クレジットカードと大きな負の関係があるので、この成分は、申請者のクレジット履歴を主に測定します。3番目の成分は、収入、教育、クレジットカードと大きな負の関係があるので、この成分は、申請者の学業面および収入面の資格を主に測定します。

スコア

スコアは、主成分ごとの係数で決定したデータの線形結合です。観測値のスコアを取得するには、主成分の代わりに一次方程式の値を使用します。相関行列を使用する場合、一次方程式を使用するときに正しい成分スコアを得るには、変数を標準化する必要があります。

観測値ごとに計算されたスコアを取得するには、保存をクリックして列を入力し、分析実行時にワークシートのスコアを保存します。グラフ上の1番目と2番目の成分のスコアを視覚的に表示するには、グラフをクリックして、分析実行時にスコアプロットを選択します。

主成分分析: 収入, 学歴, 年齢, 居住年数, 勤続年数, 貯蓄, 借金, ...

相関行列の固有分析 固有値 3.5476 2.1320 1.0447 0.5315 0.4112 0.1665 0.1254 0.0411 比率 0.443 0.266 0.131 0.066 0.051 0.021 0.016 0.005 累積 0.443 0.710 0.841 0.907 0.958 0.979 0.995 1.000
固有ベクトル 変数 PC1 PC2 PC3 PC4 PC5 PC6 PC7 収入 0.314 0.145 -0.676 -0.347 -0.241 0.494 0.018 学歴 0.237 0.444 -0.401 0.240 0.622 -0.357 0.103 年齢 0.484 -0.135 -0.004 -0.212 -0.175 -0.487 -0.657 居住年数 0.466 -0.277 0.091 0.116 -0.035 -0.085 0.487 勤続年数 0.459 -0.304 0.122 -0.017 -0.014 -0.023 0.368 貯蓄 0.404 0.219 0.366 0.436 0.143 0.568 -0.348 借金 -0.067 -0.585 -0.078 -0.281 0.681 0.245 -0.196 クレジットカード数 -0.123 -0.452 -0.468 0.703 -0.195 -0.022 -0.158 変数 PC8 収入 -0.030 学歴 0.057 年齢 -0.052 居住年数 -0.662 勤続年数 0.739 貯蓄 -0.017 借金 -0.075 クレジットカード数 0.058

これらの結果では、最初の主成分のスコアは、PC1の下にリスト表示される係数を使用して、標準化データを基に計算できます。

PC1 = 0.314(収入)+0.237(学歴)+0.484(年齢)+0.466(居住年数)+0.459(勤続年数)+0.404(貯蓄)ー0.067(借金)ー0.123(クレジットカード数)

距離

マハラノビス距離とは、データ点と多変量空間の重心(全体平均)との距離のことです。

観測値ごとの距離を計算するには、保存をクリックして、ワークシートの列を入力して、分析を実行する場合の距離を保存します。グラフ上の距離を表示するには、グラフをクリックして、分析を実行するときに外れ値プロットを選択する必要があります。

解釈

マハラノビス距離を使用して、外れ値を特定します。マハラノビス距離はそれぞれの変数の尺度と変数間の相関を検討するので、この距離を調べる方法は、外れ値を検出する上で、変数を1つずつ検査していく方法よりも強力な多変量手法となります。

たとえば、変数を1つ1つ検討していくと、丸の付いたデータ点のx値もy値も、異常になることはありません。ただし、このデータ点は、2つの変数の相関構造に一致しません。したがって、このデータ点のマハラノビス距離は、異常に大きくなります。

観測値が外れ値とみなされるほど距離値が大きいかどうかを評価するには、外れ値プロットを使用します。

固有値(Scree)プロット

固有値プロットは、主成分数とその対応する固有値との関係を表示します。固有値プロットは、固有値を最大値から降順に並べます。相関行列の固有値は、主成分の分散と等しくなります。

固有値(Scree)プロットを表示するには、グラフをクリックして、分析を実行するときに固有値プロットを選択します。

解釈

固有値(Scree)プロットを使用して、固有値のサイズに基づいて使用する成分数を選択します。理想的なパターンは、勾配曲線の後に、曲がり、そして直線が続く形です。直線になる傾向が現れはじめる最初の点よりも前の勾配曲線の中にある成分を使用します。

この固有値(Scree)プロットは、3番目の主成分の後に固有値が直線を形成しはじめることを示します。したがって、残りの主成分は、ばらつきが非常に小さい比率(ゼロに近い)のため、重要視する必要はないでしょう。

スコアプロット

スコアプロットは、第1主成分分析のスコアと第2主成分分析のスコアとの関係をグラフにします。

スコアプロットを表示するには、グラフをクリックして、分析を実行するときにスコアプロットを選択する必要があります。

解釈

最初の2つの成分が、データのほとんどの分散を説明する場合は、スコアプロットを使用してデータ構造を評価し、クラスター、外れ値、および傾向を検出できます。プロットのデータをグループ化する場合、データ内に2つ以上の異なる分布があることを示します。データが正規分布に従い、外れ値が存在しなければ、点はゼロ付近にランダムに分布します。

このスコアプロットでは、下隅にあるデータ点が外れ値の可能性があります。この点を調査する必要があります。

ヒント

観測値ごとに計算されたスコアを確認するには、ポインタをグラフのデータ点の上に置きます。 他の成分のスコアプロットを作成するには、スコアを保存し、グラフ > 散布図を使用します。

負荷量プロット

負荷量プロットは、最初の成分の変数ごとの係数対2番目の成分の係数をグラフ化します。

負荷量プロットを表示するには、グラフをクリックして、分析を実行するときに負荷量プロットを選択します。

解釈

負荷量プロットを使用して、どの変数が各成分に最大の効果があるかを特定します。負荷量の範囲は-1~1です。-1または1に近い負荷量は、変数が成分に強く影響していることを示します。ゼロに近い負荷量は、成分に対する変数の影響が弱いことを示します。負荷量の評価により、変数の観点から、各成分を特徴づけやすくすることもできます。

この負荷量プロットでは、年齢、居住年数、勤続年数、貯蓄には、成分1に大きな正の負荷量があるので、この成分は、申請者の長期的な財務安定性を主に測定します。借金とクレジットカードには、成分2に大きな負の負荷量があるので、この成分は、申請者のクレジット履歴を主に測定します。

バイプロット

バイプロットではスコアプロットと負荷量プロットが重ね合わて表示されます。

バイプロットを表示するには、グラフをクリックして、分析を実行するときにバイプロットを選択します。

解釈

1つのグラフの最初の2つの成分のデータ構造と負荷量を評価するには、バイプロットを使用します。Minitabは、両方の成分の負荷量と同様に、第2主成分のスコアと第1主成分のスコアとの関係をグラフにします。

バイプロットは次のことを示しています。
  • 年齢、居住年数、勤続年数、貯蓄には、成分1に大きな正の負荷量があります。このため、この成分は、申請者の長期的な財務安定性に焦点を当てます。
  • 借金とクレジットカード数は、成分2に大きな負の負荷量を持ちます。したがって、この成分は申請者のクレジット履歴に焦点を当てます。
  • 右下隅のデータ点が外れ値である可能性があります。この点を調査する必要があります。

外れ値プロット

外れ値プロットは、観測値ごとのマハラノビス距離と外れ値を特定する参照線を示します。マハラノビス距離とは、各データ点と多変量空間の重心(全体平均)との距離のことです。マハラノビス距離を調査することは、それぞれの変数の尺度と変数間の相関をまとめて処理するため、変数を1つずつ確認していく方法に比べて、より強力に外れ値を検出できます。

外れ値プロットを表示するには、グラフをクリックして、分析を実行するときに外れ値プロットを選択する必要があります。

解釈

外れ値プロットを使用して、外れ値を特定します。参照線より上側にあるデータ点は外れ値です。

外れ値は、分析の結果に大きな影響を与えることがあります。このため、データに外れ値があった場合、観測値を調べて異常な理由を理解します。測定やデータ入力の誤差はすべて修正します。特定の原因に関連するデータを削除し、分析を再度実行することを検討してください。

これらの結果に外れ値はありません。すべてのデータ点は、参照線よりも下側にあります。

ヒント

観測値を特定するには、ポインタを外れ値プロットのデータ点の上に置きます。エディタ > ブラシを使用して、プロット上の複数の外れ値をブラッシングして、ワークシートの観測値にフラグを立てます。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください