相关的数据注意事项

为了确保结果有效,请在收集数据、执行分析和解释结果时考虑以下准则。

数据必须至少包括两列数字或日期/时间数据
所有列必须包含相同数量的行。
数据应当是连续的或按顺序的
如果您有类别数据,则应当执行 交叉分组表和卡方 以检查变量之间的相关性。
样本数量应当为中等程度及以上,n ≥ 25
虽然对于相关所需的数据量没有正式的准则,但样本越大,就越能清楚地表示数据中的模式并提供更精确的估计值。
变量间的关系应该为线性关系或单调关系
如果变量不具有线性关系或单调关系,则相关性分析所得出的结果将不会准确反映关系的强度。检查矩阵图以查看其他关系。
异常值可能会对结果产生较大影响。
正因为异常值可能会对结果产生较大影响,所以需使用矩阵图确定这些值。您应该调查异常值,因为他们能够提供关于数据或过程的有用信息。
数据应服从二变量正态分布
Pearson 相关和 Spearman 相关的 p 值程序可以很好地适应偏离正态性的情况。无论样本的父级总体如何,当 n ≥ 25 时,p 值通常准确。
Pearson 相关的置信区间对基础二变量分布的正态性敏感。如果数据偏离正态性,那么,无论样本数量的量值是多少,置信区间都可能不准确。
Spearman 相关的置信区间基于秩,而且对基础二变量分布假设不太敏感。