July 3, 2022
文章标签
数据分析
概率论&统计学
原文链接:The relationship between correlation, mutual information, and p-values | statsandstuff (scottroy.github.io)

在构建机器学习或统计模型之前,特征选择通常是必要的,特别是当存在许多不相关的特征时。更具体地说,假设我们要使用某些特征 $X_1,…,X_k$ 来预测/解释一些响应 $Y$。第一步自然是找到与响应 $Y$ “最相关”的特征,并使用这些特征构建模型。我们有很多方法可以衡量“最相关”:
- 与响应相关性最高的特征(features most correlated with the response)
- 与响应具有最大互信息的特征 (features with the highest mutual information with the response)
- 在解释响应时最“统计显著”的特征 (features that are the most “statistically significant” in explaining the response)
接下来我们会讨论为何上述方法都有效。基本结论是:
- 相关性是把通过 t 检验、F 检验、比例检验(proportion tests)和卡方检验获得的 p 值的重新参数化(reparametrization),这意味着(对于固定大小为 N 的样本)按 p 值对特征进行排名等效于按相关性对特征进行排名
- 互信息是把通过 G 检验获得的 p 值重新参数化。此外,卡方统计量是 G 统计量的二阶泰勒近似(second order Taylor approximation),因此在实践中,按互信息和相关性进行排名通常是相似的。
下面分 3 个场景详细展开
- 响应和特征都是基数为 2
- 响应或特征是基数为 2
- 响应和特征都是实数枚举(基数不为2)
两个变量都是基数为 2
这里我们假定特征 $X\in\{0,1\}^N$ 和响应 $Y\in\{0,1\}^N$ 都是基数为 2。让我们聚焦于一个特征进而观察卡方检验、相关性(the correlation)、G检验和互信息之间的关系。两个变量之间的关系如表格所示
在表格中,$O_{ij}$ 表示当 $X=i,Y=j$ 时观测值的数量。此外,用 $\cdot$ 表示某一个索引的汇总值,所以 $O_{i\cdot}$ 表示第 $i$ 行的总和,$O_{\cdot j}$ 表示第 $j$ 列的总和。
