主成分分析の主要な結果を解釈する

主成分分析を解釈するには、次の手順を実行します。主要な結果には、固有値、成分を説明する分散比率、係数、いくつかのグラフが含まれます。

ステップ1:主成分数を判断する

次の手法を使用して、データ内の変動の大部分を占める主成分の最小数を判断します。
主成分を説明する分散の比率
累積比率を使用して、主成分を説明する分散量を判断します。許容可能な水準の分散を説明する主成分を保持します。許容可能な水準は、用途によって変わります。記述目的であれば、説明される分散の80%が必要です。ただし、これらのデータを別の方法で分析する場合は、主成分によって説明される分散が少なくとも90%は必要です。
固有値
固有値のサイズを使用して主成分の数を決定できます。固有値が最大の主成分を保持します。たとえば、カイザー基準を使用して、1より大きな固有値を持つ主要成分のみを使用します。
固有値(Scree)プロット
固有値プロットは、固有値を最大値から降順に並べます。理想的なパターンは、勾配曲線の後に、曲がり、そして直線が続く形です。直線傾向が始まる最初の点より前の勾配曲線の中にある成分を使用します。

主成分分析: 収入, 学歴, 年齢, 居住年数, 勤続年数, 貯蓄, 借金, ...

相関行列の固有分析 固有値 3.5476 2.1320 1.0447 0.5315 0.4112 0.1665 0.1254 0.0411 比率 0.443 0.266 0.131 0.066 0.051 0.021 0.016 0.005 累積 0.443 0.710 0.841 0.907 0.958 0.979 0.995 1.000
固有ベクトル 変数 PC1 PC2 PC3 PC4 PC5 PC6 PC7 収入 0.314 0.145 -0.676 -0.347 -0.241 0.494 0.018 学歴 0.237 0.444 -0.401 0.240 0.622 -0.357 0.103 年齢 0.484 -0.135 -0.004 -0.212 -0.175 -0.487 -0.657 居住年数 0.466 -0.277 0.091 0.116 -0.035 -0.085 0.487 勤続年数 0.459 -0.304 0.122 -0.017 -0.014 -0.023 0.368 貯蓄 0.404 0.219 0.366 0.436 0.143 0.568 -0.348 借金 -0.067 -0.585 -0.078 -0.281 0.681 0.245 -0.196 クレジットカード数 -0.123 -0.452 -0.468 0.703 -0.195 -0.022 -0.158 変数 PC8 収入 -0.030 学歴 0.057 年齢 -0.052 居住年数 -0.662 勤続年数 0.739 貯蓄 -0.017 借金 -0.075 クレジットカード数 0.058
主要な結果:累積、固有値、固有値プロット

これらの結果では、最初の3つの主要成分の固有値が1よりも大きくなります。3つの主要成分はデータ内の分散の84.1%を説明します。固有値プロットは、固有値が直線になるのは、3つの主要成分の後であることを示しています。84.1%という数字が、データで説明される十分な分散量である場合、最初の3つの主要成分を使用する必要があります。

ステップ2:元の変数の観点から各主成分を解釈する

各主成分を解釈するには、元の変数の係数の大きさと向きを調べます。係数の絶対値が大きくなるほど、成分を計算するうえで対応する変数が重要になります。係数の絶対値が重要であるとみなされるために、その値がどれくらいの大きさでなければならないかということは主観的なものです。専門知識を使用して、相関値が重要になる水準を判断します。

主成分分析: 収入, 学歴, 年齢, 居住年数, 勤続年数, 貯蓄, 借金, ...

相関行列の固有分析 固有値 3.5476 2.1320 1.0447 0.5315 0.4112 0.1665 0.1254 0.0411 比率 0.443 0.266 0.131 0.066 0.051 0.021 0.016 0.005 累積 0.443 0.710 0.841 0.907 0.958 0.979 0.995 1.000
固有ベクトル 変数 PC1 PC2 PC3 PC4 PC5 PC6 PC7 収入 0.314 0.145 -0.676 -0.347 -0.241 0.494 0.018 学歴 0.237 0.444 -0.401 0.240 0.622 -0.357 0.103 年齢 0.484 -0.135 -0.004 -0.212 -0.175 -0.487 -0.657 居住年数 0.466 -0.277 0.091 0.116 -0.035 -0.085 0.487 勤続年数 0.459 -0.304 0.122 -0.017 -0.014 -0.023 0.368 貯蓄 0.404 0.219 0.366 0.436 0.143 0.568 -0.348 借金 -0.067 -0.585 -0.078 -0.281 0.681 0.245 -0.196 クレジットカード数 -0.123 -0.452 -0.468 0.703 -0.195 -0.022 -0.158 変数 PC8 収入 -0.030 学歴 0.057 年齢 -0.052 居住年数 -0.662 勤続年数 0.739 貯蓄 -0.017 借金 -0.075 クレジットカード数 0.058
主要な結果:PC、負荷量プロット

これらの結果では、最初の主要成分には、年齢、居住年数、勤続年数、貯蓄と大きな正の関連性があるので、この成分は、主として長期的な財務安定性を測定します。2番目の成分には、借金とクレジットカードと大きな負の関連性があるので、この成分は、主として申請者のクレジット履歴を測定します。3番目の成分には、収入、学歴、クレジットカードと負の関連性があるので、この成分は、主として申請者の学業面および収入面の資格を測定します。

負荷量プロットは、最初の2つの成分の結果を視覚的に示します。年齢、居住年数、勤続年数、貯蓄には、成分1の大きな正の負荷量を持つので、この成分は、長期的な財務安定性を測定します。借金とクレジットカード数は、成分2で大きな負の負荷量を持つため、この成分は、主として申請者のクレジット履歴を測定します。

ステップ3:外れ値を特定する

外れ値プロットを使用して、外れ値を特定します。参照線の上側にあるデータ点は外れ値です。外れ値は、分析の結果に大きな影響を与えることがあります。このため、データに外れ値があった場合、観測値を調べて異常な理由を理解する必要があります。データ入力や測定の誤差はすべて修正します。特定の原因に関連するデータを削除し、分析を再度実行することを検討してください。

主要な結果:外れ値プロット

これらの結果に外れ値はありません。すべてのデータ点は、参照線よりも下側にあります。

ヒント

外れ値プロットのデータ点の上にポインタを置いて、観測値を特定します。エディタ > ブラシを使用して、プロット上の複数の外れ値をブラッシングして、ワークシートの観測値にフラグを立てます。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください