步骤 1:使用矩阵图检查两个连续变量之间的关系。还要在关系中查找异常值。异常值可能会严重影响 Pearson 相关系数的结果。
确定关系是线性关系、单调关系还是二者都不是。下面是相关系数所描述之形式类型的示例。Pearson 相关系数适用于线性形式。Spearman 相关系数适用于单调形式。
点随机落在图上,表明变量之间无线性关系。
一些点靠近直线,另一些点远离直线,仅表明变量之间存在中等线性关系。
点靠近线,表明变量之间存在强大的线性关系。关系为正向,因为当一个变量上升时,另一个变量也会上升。
点靠近线,表明变量之间存在强大的负向关系。关系为负向,因为当一个变量上升时,另一个变量会下降。
在单调关系中,变量倾向于沿着相同的相对方向移动,但不一定以恒定的速率移动。在线性关系中,变量沿着相同的方向以恒定的速率移动。此图显示两个变量同时上升,但不以相同的速率上升。此关系是单调的,但不是线性的。这些数据的 Pearson 相关系数是 0.843,但 Spearman 相关系数较高,为 0.948。
此示例显示曲线关系。即使变量之间的关系很强,相关系数也将接近于零。关系既不是线性的又不是单调的。
使用 Pearson 相关系数可以检查两个连续变量之间线性关系的强度和方向。
相关系数可以是介于 −1 到 +1 之间的值。系数的绝对值越大,变量之间的关系越强。
对于 Pearson 相关性,绝对值 1 指示完美的线性关系。接近 0 的相关系数表示变量之间无线性关系。系数的符号表示关系的方向。如果两个变量都倾向于同时上升或下降,则系数为正,代表相关的直线向上倾斜。如果一个变量倾向于在另一个变量下降时上升,则系数为负,代表相关的直线向下倾斜。
相关类型 | Pearson |
---|---|
已使用的行数 | 30 |
年龄 | 住址 | 服务处所 | 储蓄 | 外债 | |
---|---|---|---|---|---|
住址 | 0.838 | ||||
服务处所 | 0.848 | 0.952 | |||
储蓄 | 0.552 | 0.570 | 0.539 | ||
外债 | 0.032 | 0.186 | 0.247 | -0.393 | |
信用卡数量 | -0.130 | 0.053 | 0.023 | -0.410 | 0.474 |