相関のデータに関する考慮事項

有効な結果が確実に得られるようにするため、データの収集、分析の実行、結果の解釈時には、次のガイドラインを考慮してください。

数値または日付・時刻データの少なくとも2列をデータに含める必要があります。
すべての列の行数は同じでなければなりません。
データは連続量または順位でなければならない
カテゴリデータがある場合は、変数間の関連を調べるためにクロス集計とカイニ乗を実行します。
サンプルサイズは中から大、n ≥ 25でなければなりません。
相関に必要なデータの量に関する正式なガイドラインは存在しませんが、サンプルの量が多ければ多いほど、データ内のパターンは明確になり、推定がより正確になります。
変数間の関係は線形または単調でなければならない
変数に線形関係または単調関係がない場合、相関分析の結果は関係の強さを正確には反映しません。他の関係を探すために行列プロットを調べます。
異常な値は結果に大きな影響を与えるかもしれない
異常な値は結果に大きな影響を与えるかもしれないため、行列プロットを使用してこれらの値を識別します。外れ値を詳しく調べると、データや工程に関する有効な情報を得ることができます。
データは二変量正規分布に従う
ピアソン相関法とスピアマン相関法の両方のp値手順は正規性から離れるデータに対して頑健です。p値は通常、サンプルの親母集団に関係なく、n ≥ 25に対して正確です。
ピアソン相関の信頼区間は、基になる二変量分布の正規性に対して敏感です。データが正規性から逸脱した場合、信頼区間は、サンプルサイズの大きさにかかわらず、正確ではないかもしれません。
スピアマン相関の信頼区間は順位に基づき、基になる二変量分布の仮説に対してそれほど敏感ではありません。