两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
$$ \rho_{X,Y}=\frac{cov(X,Y)}{\sigma_X\sigma_Y}=\frac{E[(X-\mu_X)(Y-\mu_Y)]}{\sigma_X\sigma_Y} $$
上式定义了总体相关系数,常用希腊小写字母 $\rho$ 作为代表符号。估算样本的协方差和标准差,可得到皮尔逊相关系数,常用英文小写字母 $r$ 表示
$$ r=\frac{\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^n(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^n(Y_i-\bar{Y})^2}} $$
$r$ 也可以根据 $(X_i,Y_i)$ 样本点的标准分数均值估计,得到与上式等价的表达式
$$ r=\frac{1}{n-1}\sum_{i=1}^n(\frac{X_i-\bar{X}}{\sigma_X})(\frac{Y_i-\bar{Y}}{\sigma_Y}) $$
其中 $\frac{X_i-\bar{X}}{\sigma_X}、\bar{X}、\sigma_X$ 分别表示对 $X_i$ 样本的标准分数、样本平均值和样本标准差。
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。对于样本容量为 $n$ 的样本,$n$ 个原始数据被转换成等级数据,相关系数 $\rho$ 为
$$ \rho=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2\sum_{i=1}^n(y_i-\bar{y})^2}} $$
其中 $x_i$ 表示数据 $X_i$ 在样本 $X$ 中的排序位置,$\bar{x}$ 表示 $x_i$ 的均值
原始数据依据其在总体数据中平均的降序位置,被分配了一个相应的等级。如下表所示
变量 Xi | 降序位置 | 等级 xi |
---|---|---|
0.8 | 5 | 5 |
1.2 | 4 | 4 |
1.2 | 3 | 3 |
2.3 | 2 | 2 |
18 | 1 | 1 |
实际应用中,变量间的差值关系是无关紧要的。
于是可以通过简单的步骤计算 $\rho$,被观测的两个变量的等级的差值,则 $\rho$ 为
$$ \rho=1-\frac{6\sum d_i^2}{n(n^2-1)} $$
首先对两个变量 $(X, Y)$ 的数据进行排序,然后记下排序以后的位置 $(x_i,y_i)$,$(x_i,y_i)$ 的值就称为秩次,秩次的差值就是上面公式中的 $di$ (即 $di=\text{rank}{X_i}-\text{rank}{Y_i}$)