July 3, 2022

文章标签

数据分析

概率论&统计学


原文链接:The relationship between correlation, mutual information, and p-values | statsandstuff (scottroy.github.io)


Untitled

在构建机器学习或统计模型之前,特征选择通常是必要的,特别是当存在许多不相关的特征时。更具体地说,假设我们要使用某些特征 $X_1,…,X_k$ 来预测/解释一些响应 $Y$。第一步自然是找到与响应 $Y$ “最相关”的特征,并使用这些特征构建模型。我们有很多方法可以衡量“最相关”:

接下来我们会讨论为何上述方法都有效。基本结论是:

下面分 3 个场景详细展开

两个变量都是基数为 2

这里我们假定特征 $X\in\{0,1\}^N$ 和响应 $Y\in\{0,1\}^N$ 都是基数为 2。让我们聚焦于一个特征进而观察卡方检验、相关性(the correlation)、G检验和互信息之间的关系。两个变量之间的关系如表格所示

在表格中,$O_{ij}$ 表示当 $X=i,Y=j$ 时观测值的数量。此外,用 $\cdot$ 表示某一个索引的汇总值,所以 $O_{i\cdot}$ 表示第 $i$ 行的总和,$O_{\cdot j}$ 表示第 $j$ 列的总和。

Untitled