相関のすべての統計量およびグラフを解釈する

相関分析で使用されるすべての統計量およびグラフの定義と解釈について解説します。

N

サンプルサイズ(N)は、変数のペアの完全なデータポイントの数です。変数のペアのいずれかで欠損データのある行は、サンプルサイズに数えられません。

この表では、欠損データの行はないため、AおよびBのサンプルサイズは6です。
  C1 C2
  A B
1 18 2
2 17 20
3 12 16
4 19 22
5 15 32
6 6 25
この表では、3行目に欠損値があるため、AおよびBのサンプルサイズは5です。
  C1 C2
  A B
1 18 18
2 17 28
3 12 *
4 19 8
5 15 19
6 6 25
この表では、3行目のみに欠損値があるため、AおよびBのサンプルサイズは5です。
  C1 C2
  A B
1 18 9
2 28 5
3 * *
4 8 23
5 19 11
6 25 25
この表では、4行の異なる行に欠損データが含まれるため、AおよびBのサンプルサイズは2です。
  C1 C2
  A B
1 18 20
2 28 *
3 * 9
4 8 3
5 19 *
6 * 3

ピアソン相関

相関行列は、変数の各ペアの間の線形関係を測定する相関値を示します。相関値は-1~+1の範囲になります。2つの変数が一緒に増減する傾向にあるとき、相関値は正になります。1つの変数が増加したとき他方の変数が減少する場合には、相関値は負になります。

解釈

相関行列を使用して、2つの変数間の関係の強さと方向を評価します。正の相関値が高い場合、変数が同じ特徴を測定していることを示しています。項目の相関が高くない場合、項目はそれぞれ異なる特徴を示すこともあれば、関係がはっきりしないこともあります。

相関 年齢 居住年数 勤続年数 貯蓄 借金 居住年数 0.838 勤続年数 0.848 0.952 貯蓄 0.552 0.570 0.539 借金 0.032 0.186 0.247 -0.393 クレジットカード数 -0.130 0.053 0.023 -0.410 0.474

住所と年齢、雇用状況と年齢、雇用状況と住所の間には、正の線形関係があります。これらのペアのピアソン相関係数は次のとおりです。
  • 住所と年齢、0.838
  • 雇用状況と年齢、0.848
  • 雇用状況と住所、0.952
これらの値は、変数間に中程度の正の関係があることを示しています。
負のピアソン相関係数のある負の線形関係が、以下のペアに対して存在します。
  • 負債と貯蓄、−0.393
  • クレジットカードと年齢、−0.130
  • クレジットカードと貯蓄、−0.410
これらの変数間の関係は負で、負債が増えると学歴と貯蓄が減り、クレジットカードの枚数が増えると貯蓄が減ることを示しています。

スピアマン相関

スピアマン相関係数を使用して、2つの連続変数または順位変数の間の単調関係の強さと方向を調べます。単調関係では、変数が同じ相関方向に動く傾向がありますが、一定の割合とは限りません。スピアマン相関を計算するために、Minitabでは生データが順位付けされます。続いて、順位付けされたデータの相関係数が計算されます。

強度

相関係数の範囲は-1~+1の値です。係数の絶対値が大きいほど、変数間の関係は強まります。

スピアマンの相関では、絶対値が1の場合、順位データが完全に線形であることを示します。たとえば、スピアマンの相関が−1の場合、変数Aの最高値が変数Bの最低値に関連付けられ、変数Aの2番目に高い値が変数Bの2番目に低い値に関連付けられ、という関係になっていることを意味します。

方向

相関係数の符号は関係の方向を示します。2つの変数がともに増加または減少する場合、係数は正で、相関を表す線の傾きが右上がりになります。一方の変数が増加するともう一方が減少する傾向にある場合、係数は負になり、相関を表す線の傾きが右下がりになります。

以下のプロットは、変数間の関係の強さと方向のさまざまなパターンを図示するために、特定のスピアマン相関係数値のあるデータを示しています。

関係なし: スピアマンのρ = 0

点はプロット上にランダムに落ちており、変数間に関係がないことを示しています。

強い正の関係: スピアマンのρ = 0.948

点は線に近く、変数間に強い関係があることを示しています。変数が共に増大しているため、関係は正です。

強い負の関係: スピアマンのρ = -1.0

点は線に近く、変数間に強い関係があることを示しています。1つの変数が増加したとき他方の変数が減少するため、関係は負です。

相関関係のみに基づいて、ある変数の変化が別の変数変化の原因となると結論付けることは決して適切ではありません。関係における因果関係の有無は、適切に制御された実験でのみ決定されます。

解釈

相関: 年齢, 居住年数, 勤続年数, 貯蓄, 借金, クレジットカード数

相関 年齢 居住年数 勤続年数 貯蓄 借金 居住年数 0.824 勤続年数 0.830 0.912 貯蓄 0.570 0.571 0.496 借金 -0.198 -0.142 -0.056 -0.605 クレジットカード数 -0.179 0.069 0.036 -0.480 0.353
ペアワイズのスピアマン相関 サンプル1 サンプル2 相関 ρの95%信頼区間 p値 居住年数 年齢 0.824 ( 0.624, 0.922) 0.000 勤続年数 年齢 0.830 ( 0.636, 0.926) 0.000 貯蓄 年齢 0.570 ( 0.236, 0.783) 0.001 借金 年齢 -0.198 (-0.524, 0.178) 0.293 クレジットカード数 年齢 -0.179 (-0.508, 0.197) 0.345 勤続年数 居住年数 0.912 ( 0.798, 0.963) 0.000 貯蓄 居住年数 0.571 ( 0.237, 0.784) 0.001 借金 居住年数 -0.142 (-0.479, 0.232) 0.454 クレジットカード数 居住年数 0.069 (-0.300, 0.419) 0.719 貯蓄 勤続年数 0.496 ( 0.144, 0.737) 0.005 借金 勤続年数 -0.056 (-0.408, 0.311) 0.768 クレジットカード数 勤続年数 0.036 (-0.328, 0.392) 0.849 借金 貯蓄 -0.605 (-0.804, -0.283) 0.000 クレジットカード数 貯蓄 -0.480 (-0.726, -0.124) 0.007 クレジットカード数 借金 0.353 (-0.020, 0.639) 0.056

これらの結果では、住所と年齢の間のスピアマン相関は0.824で、変数間に正の関係があることを示しています。ρの信頼区間は0.624~0.922です。p値は0.000で、関係がα = 0.05レベルで統計的に有意であることを示しています。

負債と貯蓄の間のスピアマン相関は-0.605、クレジットカードと貯蓄の間のスピアマン相関は-0.480です。これらの変数間の関係は負で、負債とクレジットカードが増えると貯蓄が減ることを示しています。

使用中の行

データに欠損値がない場合、使用される行数は、データのある行数と同じです。データに欠損値がある場合、数は範囲内とすることができます。範囲内の最小数は、データポイントの完全なペアが最少の列のペアで使用される行数です。範囲内の最大数は、データポイントの完全なペアが最多の列のペアで使用される行数です。各列のペアの行数を確認するには、ペアワイズ相関表を表示します。

相関の信頼区間

信頼区間は、相関係数の値が含まれる可能性が高い範囲です。データのサンプルはランダムであるため、2つの母集団サンプルの信頼区間が同一である可能性は低くなります。しかし、サンプルを何度も繰り返して測定すると、得られた信頼区間または限界値の特定の割合に未知の相関係数が含まれることになります。このような相関係数を含む信頼区間や限界値の割合(%)を区間の信頼水準と言います。

たとえば、95%の信頼水準は、母集団から100個のサンプルをランダムに採取した場合、そのうちおよそ95個からは相関係数を含む区間が得られると期待することができます。

上限は、母集団差がそれより小さくなる可能性が高い値です。下限は、母集団差がそれより大きくなる可能性が高い値です。

ピアソン相関の信頼区間は、基になる二変量分布の正規性に対して敏感です。データが正規性から逸脱した場合、信頼区間は、サンプルサイズの大きさにかかわらず、正確ではないかもしれません。

スピアマン相関の信頼区間は順位に基づき、基になる二変量分布の仮説に対してそれほど敏感ではありません。

解釈

信頼区間により、結果の実質的な有意性を評価しやすくなります。状況に応じた専門知識を利用して、信頼区間に実質的に有意な値が含まれているかどうかを判断します。信頼区間が広すぎて役に立たない場合、サンプルサイズを増加させることを検討します。 詳細は信頼区間の精度を高める方法を参照してください。

Correlation: Age, Residence, Employ, Savings, Debt, Credit cards

Pairwise Pearson Correlations Sample 1 Sample 2 Correlation 95% CI for ρ P-Value Residence Age 0.838 ( 0.684, 0.920) 0.000 Employ Age 0.848 ( 0.702, 0.926) 0.000 Savings Age 0.552 ( 0.240, 0.761) 0.002 Debt Age 0.032 (-0.332, 0.388) 0.865 Credit cards Age -0.130 (-0.468, 0.242) 0.494 Employ Residence 0.952 ( 0.901, 0.977) 0.000 Savings Residence 0.570 ( 0.264, 0.772) 0.001 Debt Residence 0.186 (-0.187, 0.512) 0.326 Credit cards Residence 0.053 (-0.313, 0.406) 0.779 Savings Employ 0.539 ( 0.222, 0.753) 0.002 Debt Employ 0.247 (-0.125, 0.557) 0.189 Credit cards Employ 0.023 (-0.340, 0.380) 0.906 Debt Savings -0.393 (-0.660, -0.038) 0.032 Credit cards Savings -0.410 (-0.671, -0.059) 0.024 Credit cards Debt 0.474 ( 0.138, 0.713) 0.008

この結果では、住所および年齢に、正の線形相関0.838があります。95%の信頼度で、母相関係数は0.684~0.920と考えることができます。通常、相関が強いと、信頼区間が狭くなります。例えば、クレジットカードと年齢の相関は弱く、95%信頼区間は-0.468~0.242です。

p値

p値は帰無仮説を棄却するための証拠を測定する確率です。p値が小さいほど、帰無仮説を棄却するための強力な証拠となります。

解釈

相関係数が統計的に有意かどうかを判断するにはp値を使用します。

相関係数が統計的に有意かどうかを判断するには、p値を有意水準と比較します。通常は、有意水準(αまたはアルファとも呼ばれる)として0.05が適切です。0.05の有意水準は、実際には差が存在しない場合に、差が存在すると結論付けてしまうリスクが5%であるということを示します。
p値 ≤ α: 相関は統計的に有意です(H0を棄却する)
p値が有意水準以下の場合は、帰無仮説を棄却する決定を下します。相関が統計的に有意であると結論付けることができます。専門知識に基づいて、差が実際に有意かどうかを判断します。詳細は、統計的有意性と実質的有意性を参照してください。
p値 > α: 相関は統計的に有意ではありません(H0を棄却しない)
p値が有意水準よりも大きい場合は、帰無仮説を棄却しない決定を下します。相関が統計的に有意であると結論付けるのに十分な証拠がありません。

ピアソン相関法とスピアマン相関法の両方のp値手順は正規性から離れるデータに対して頑健です。p値は通常、サンプルの親母集団に関係なく、n ≥ 25に対して正確です。

Correlation: Age, Residence, Employ, Savings, Debt, Credit cards

Pairwise Pearson Correlations Sample 1 Sample 2 Correlation 95% CI for ρ P-Value Residence Age 0.838 ( 0.684, 0.920) 0.000 Employ Age 0.848 ( 0.702, 0.926) 0.000 Savings Age 0.552 ( 0.240, 0.761) 0.002 Debt Age 0.032 (-0.332, 0.388) 0.865 Credit cards Age -0.130 (-0.468, 0.242) 0.494 Employ Residence 0.952 ( 0.901, 0.977) 0.000 Savings Residence 0.570 ( 0.264, 0.772) 0.001 Debt Residence 0.186 (-0.187, 0.512) 0.326 Credit cards Residence 0.053 (-0.313, 0.406) 0.779 Savings Employ 0.539 ( 0.222, 0.753) 0.002 Debt Employ 0.247 (-0.125, 0.557) 0.189 Credit cards Employ 0.023 (-0.340, 0.380) 0.906 Debt Savings -0.393 (-0.660, -0.038) 0.032 Credit cards Savings -0.410 (-0.671, -0.059) 0.024 Credit cards Debt 0.474 ( 0.138, 0.713) 0.008

これらの結果には、有意水準0.05未満のp値が多くあり、ピアソン相関係数が統計的に有意であることを示しています。

極端なデータ点が原因でp値が小さいものの、信頼区間は非常に広い、というケースがあります。例えば、クレジットカードと負債では、95% CIは非常に広いですが、p値は小さいです。行列プロットを調べると、極端なデータ点を見ることができます。

行列散布図

行列散布図は、散布図を並べたものです。行列の各散布は、x軸とy軸上の項のペアのスコアをグラフ化したものです。

解釈

プロットを使用して、変数のすべての組み合わせにおける関係を視覚的に評価します。関係は線形、単調関係であるか、またはどちらにも当てはまらないかもしれません。また、行列プロットを使用して、結果に大きな影響を与え得る外れ値を探します。関係の種類に関する詳細は、線形、非線形、および単調関係を参照してください。

この行列プロットは、すべての項目ペアに正の線形関係があることを示します。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください