主成分分析の主要な結果を解釈する

主成分分析を解釈するには、次の手順を実行します。主要な結果には、固有値、成分を説明する分散比率、係数、いくつかのグラフが含まれます。

ステップ1:主成分数を判断する

次の手法を使用して、データ内の変動の大部分を占める主成分の最小数を判断します。
主成分を説明する分散の比率
累積比率を使用して、主成分が説明する分散の総量を判断します。許容可能な水準の分散を説明する主成分を保持します。許容可能な水準は用途によって変わります。記述目的であれば、説明される分散が80%は必要です。しかし、データを別の方法で分析する場合は、主成分によって説明される分散が少なくとも90%は必要になります。
固有値
固有値のサイズを使用して主成分の数を決定できます。固有値が最大の主成分を保持します。たとえば、カイザー基準を使用して、1より大きな固有値を持つ主要成分のみを使用します。
固有値(Scree)プロット
screeプロットは、最大値から降順に並んでいます。理想的なパターンは、勾配曲線の後に、曲がり、そして直線が続く形です。直線傾向が始まる最初の点より前の勾配曲線の中で、この成分を使用します。

主成分分析: 収入, 学歴, 年齢, 居住年数, 勤続年数, 貯蓄, 借金, ...

相関行列の固有分析 固有値 3.5476 2.1320 1.0447 0.5315 0.4112 0.1665 0.1254 0.0411 比率 0.443 0.266 0.131 0.066 0.051 0.021 0.016 0.005 累積 0.443 0.710 0.841 0.907 0.958 0.979 0.995 1.000
固有ベクトル 変数 PC1 PC2 PC3 PC4 PC5 PC6 PC7 収入 0.314 0.145 -0.676 -0.347 -0.241 0.494 0.018 学歴 0.237 0.444 -0.401 0.240 0.622 -0.357 0.103 年齢 0.484 -0.135 -0.004 -0.212 -0.175 -0.487 -0.657 居住年数 0.466 -0.277 0.091 0.116 -0.035 -0.085 0.487 勤続年数 0.459 -0.304 0.122 -0.017 -0.014 -0.023 0.368 貯蓄 0.404 0.219 0.366 0.436 0.143 0.568 -0.348 借金 -0.067 -0.585 -0.078 -0.281 0.681 0.245 -0.196 クレジットカード数 -0.123 -0.452 -0.468 0.703 -0.195 -0.022 -0.158 変数 PC8 収入 -0.030 学歴 0.057 年齢 -0.052 居住年数 -0.662 勤続年数 0.739 貯蓄 -0.017 借金 -0.075 クレジットカード数 0.058
主要な結果:累積、固有値、固有値プロット

これらの結果では、最初の3つの主要成分の固有値が1よりも大きくなります。3つの主要成分はデータ内の分散の84.1%を説明します。固有値プロットは、固有値が直線になるのは、3つの主要成分の後であることを示しています。84.1%がデータの分散を十分に説明できる量である場合、最初の3つの主要成分を使用する必要があります。

ステップ2:元の変数の観点から各主成分を解釈する

各主成分を解釈するには、元の変数の係数の大きさと方向を調べます。係数の絶対値が大きくなるほど、成分を計算するうえで対応する変数が重要になります。絶対値が重要であると判断するために必要な係数の絶対値の大きさは、主観的な情報です。専門的な知識を駆使して相関の値が重要になる水準を判断してください。

主成分分析: 収入, 学歴, 年齢, 居住年数, 勤続年数, 貯蓄, 借金, ...

相関行列の固有分析 固有値 3.5476 2.1320 1.0447 0.5315 0.4112 0.1665 0.1254 0.0411 比率 0.443 0.266 0.131 0.066 0.051 0.021 0.016 0.005 累積 0.443 0.710 0.841 0.907 0.958 0.979 0.995 1.000
固有ベクトル 変数 PC1 PC2 PC3 PC4 PC5 PC6 PC7 収入 0.314 0.145 -0.676 -0.347 -0.241 0.494 0.018 学歴 0.237 0.444 -0.401 0.240 0.622 -0.357 0.103 年齢 0.484 -0.135 -0.004 -0.212 -0.175 -0.487 -0.657 居住年数 0.466 -0.277 0.091 0.116 -0.035 -0.085 0.487 勤続年数 0.459 -0.304 0.122 -0.017 -0.014 -0.023 0.368 貯蓄 0.404 0.219 0.366 0.436 0.143 0.568 -0.348 借金 -0.067 -0.585 -0.078 -0.281 0.681 0.245 -0.196 クレジットカード数 -0.123 -0.452 -0.468 0.703 -0.195 -0.022 -0.158 変数 PC8 収入 -0.030 学歴 0.057 年齢 -0.052 居住年数 -0.662 勤続年数 0.739 貯蓄 -0.017 借金 -0.075 クレジットカード数 0.058
主要な結果:PC、負荷量プロット

これらの結果では、最初の主成分には年齢、居住年数、勤続年数、貯蓄と大きな正の相関があるので、この成分では主に長期的な財務安定性を測定します。 2番目の成分には借金とクレジットカード数と大きな負の相関があるので、この成分では主に申請者のクレジット履歴を測定します。3番目の成分には収入、学歴、クレジットカード数と大きな負の相関があるので、主に申請者の学歴と収入の適正を測定します。

負荷量プロットは、最初の2つの成分の負荷量の結果を示します。年齢、居住年数、勤続年数、貯蓄には、成分1に大きな正の負荷量があるので、この成分では長期的な財務安定性を測定します。借金とクレジットカード数は、成分2に大きな負の負荷量があるので、この成分では主に申請者のクレジット履歴を測定します。

ステップ3:外れ値を特定する

外れ値プロットを使用して、データの外れ値を特定します。参照ラインの上にある点は外れ値です。外れ値は分析の結果に大きな影響を与えることがあります。したがって、データに外れ値があった場合、観測値を調べて異常な理由を理解する必要があります。測定値やデータ入力の誤差を修正してください。特定の原因に関連するデータを削除し、分析を再度実行することを検討してください。

主要な結果:外れ値プロット

これらの結果に外れ値はありません。すべてのデータ点は、参照線よりも下側にあります。

ヒント

外れ値プロットのデータ点にポインタを合わせて、観測値を特定します。エディタ > ブラシを使用して、プロット上の複数の外れ値をブラッシングして、ワークシートの観測値にフラグを立てます。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください