상관 분석에 대한 데이터 고려사항

유효한 결과를 얻으려면 데이터를 수집하고 분석을 수행하거나 결과를 해석할 때 다음 지침을 따르십시오.

데이터에는 숫자 또는 날짜/시간 데이터 열이 2개 이상 포함되어야 합니다.: 모든 열의 행 수는 모두 같아야 합니다.
데이터는 계량형 또는 순서형이어야 합니다.: 범주형 데이터가 있는 경우 변수 간의 연관성을 조사하려면 교차표 및 카이-제곱 검정을 수행해야 합니다.
표본 크기가 중간 규모에서 대규모여야 합니다(n이 25 이상).: 상관 분석에 필요한 데이터 양에 대한 공식적인 지침은 없지만, 표본이 클수록 데이터에서 패턴이 더 명확하게 나타나고 더 정확한 추정치가 제공됩니다.
변수 사이에 선형 또는 단순 관계가 있어야 합니다.: 변수 사이에 선형 또는 단순 관계가 없는 경우 상관 분석의 결과가 관계의 강도를 정확히 반영하지 않습니다. 산점 행렬도를 조사하여 다른 관계를 찾아보십시오.
비정상적인 값이 결과에 큰 영향을 미칠 수 있습니다.: 비정상적인 값이 결과에 큰 영향을 미칠 수 있으므로 산점 행렬도를 사용하여 이러한 값을 식별하십시오. 특이치가 데이터 또는 공정에 대한 유용한 정보를 제공할 수 있으므로 특이치를 조사해야 합니다.
데이터가 이변량 정규 분포를 따라야 합니다.: Pearson 및 Spearman 상관 계수의 p-값 절차는 모두 정규성 이탈에 대해 로버스트합니다. p-값은 일반적으로 n이 25 이상인 경우 표본의 모집단에 관계 없이 정확합니다.; Pearson 상관 계수의 신뢰 구간은 기초를 이루는 이변량 분포의 정규성에 민감합니다. 데이터가 정규성을 벗어나는 경우 표본 크기에 관계 없이 신뢰 구간이 부정확할 수 있습니다.; Spearman 상관 계수의 신뢰 구간은 순위 기반이며, 기초를 이루는 이변량 분포 가정에 덜 민감합니다.