상관 분석에 대한 데이터 고려사항

유효한 결과를 얻으려면 데이터를 수집하고 분석을 수행하거나 결과를 해석할 때 다음 지침을 따르십시오.

데이터에는 숫자 또는 날짜/시간 데이터 열이 2개 이상 포함되어야 합니다.
모든 열의 행 수는 모두 같아야 합니다.
데이터는 계량형 또는 순서형이어야 합니다.
범주형 데이터가 있는 경우 변수 간의 연관성을 조사하려면 교차표 및 카이-제곱 검정을 수행해야 합니다.
표본 크기가 중간 규모에서 대규모여야 합니다(n이 25 이상).
상관 분석에 필요한 데이터 양에 대한 공식적인 지침은 없지만, 표본이 클수록 데이터에서 패턴이 더 명확하게 나타나고 더 정확한 추정치가 제공됩니다.
변수 사이에 선형 또는 단순 관계가 있어야 합니다.
변수 사이에 선형 또는 단순 관계가 없는 경우 상관 분석의 결과가 관계의 강도를 정확히 반영하지 않습니다. 산점 행렬도를 조사하여 다른 관계를 찾아보십시오.
비정상적인 값이 결과에 큰 영향을 미칠 수 있습니다.
비정상적인 값이 결과에 큰 영향을 미칠 수 있으므로 산점 행렬도를 사용하여 이러한 값을 식별하십시오. 특이치가 데이터 또는 공정에 대한 유용한 정보를 제공할 수 있으므로 특이치를 조사해야 합니다.
데이터가 이변량 정규 분포를 따라야 합니다.
Pearson 및 Spearman 상관 계수의 p-값 절차는 모두 정규성 이탈에 대해 로버스트합니다. p-값은 일반적으로 n이 25 이상인 경우 표본의 모집단에 관계 없이 정확합니다.
Pearson 상관 계수의 신뢰 구간은 기초를 이루는 이변량 분포의 정규성에 민감합니다. 데이터가 정규성을 벗어나는 경우 표본 크기에 관계 없이 신뢰 구간이 부정확할 수 있습니다.
Spearman 상관 계수의 신뢰 구간은 순위 기반이며, 기초를 이루는 이변량 분포 가정에 덜 민감합니다.