2021年11月10日

文章标签

******数据分析

定义

辛普森悖论(Simpson‘s Paradox)也被称为辛普森诡论,是英国统计学家 E.H. 辛普森(E.H.Simpson) 于1951 年提出的悖论。即在某个条件下分层的两组数据,分别讨论时都会满足某种性质,可是一旦合并到一起考虑,却可能导致相反的结论。

实例

1973 年加州伯克利录取风波

Untitled

1973 年加州伯克利分校招生季结束后,大量的女生到校长办公室进行抗议,抱怨学校在招生录取率方面歧视女同学。当年该校女生的录取率为 30/100=30%,作为对比,男生的录取率为 40/100=40%,女生的录取率小于男生。听闻这个消息,校长当即找到物理学院、文学院的院长,详细了解招生情况。

那么问题来了,为什么单独看物理学院、文学院的录取率,女生都占优势的情况下,计算两个学院汇总数据时,女生的录取率反而小于男生的录取率?学校是否存在歧视女同学的情况呢?

乔丹和詹姆斯到底谁更厉害

Untitled

乔丹的球迷 A 同学和詹姆斯的球迷 B 同学吵了起来,二人争论乔丹和詹姆斯到底谁更厉害。

那么乔丹和詹姆斯到底谁更厉害呢?

悖论分析

上述两个例子说明,有的时候不能简单的将分层的数据相加汇总,汇总后的数据产出的结论可能有悖于分层分析得到的结论。以加州伯克利录取数据为例,每个学院都是女生的录取率高,汇总到一起后反而是女生的录取率低。

辛普森悖论产生的 3 个前提条件,以加州伯克利录取数据为例

  1. 单独看不同分层的数据,我们关注的指标在不同分层间的分布很不均衡。例如针对录取率来说,物理学院的录取率远高于文学院的录取率
  2. 对照组在不同的分层(学院)的数据分布趋势相反。例如文学院女生人数多于男生,物理学院男生人数多于女生。
  3. 有其他的潜在因素影响关注的指标(录取率),选定的对照组(性别)不是影响目标指标(录取率)的唯一因素。即性别不是影响录取率的唯一因素,也可能是毫无影响(当前的分布可能只是个巧合)。

上述 1,2 总结起来就是分层的维度同时影响了对照组(性别)和目标指标(录取率)。

基于上述的前提,给出一个通俗的解释:为何女生总体的录取率较低?因为女生“大多数”选择了难道系数太高的文学院,导致“淘汰”了太多人。