2021年11月10日
文章标签
******数据分析
辛普森悖论(Simpson‘s Paradox)也被称为辛普森诡论,是英国统计学家 E.H. 辛普森(E.H.Simpson) 于1951 年提出的悖论。即在某个条件下分层的两组数据,分别讨论时都会满足某种性质,可是一旦合并到一起考虑,却可能导致相反的结论。
1973 年加州伯克利分校招生季结束后,大量的女生到校长办公室进行抗议,抱怨学校在招生录取率方面歧视女同学。当年该校女生的录取率为 30/100=30%,作为对比,男生的录取率为 40/100=40%,女生的录取率小于男生。听闻这个消息,校长当即找到物理学院、文学院的院长,详细了解招生情况。
那么问题来了,为什么单独看物理学院、文学院的录取率,女生都占优势的情况下,计算两个学院汇总数据时,女生的录取率反而小于男生的录取率?学校是否存在歧视女同学的情况呢?
乔丹的球迷 A 同学和詹姆斯的球迷 B 同学吵了起来,二人争论乔丹和詹姆斯到底谁更厉害。
那么乔丹和詹姆斯到底谁更厉害呢?
上述两个例子说明,有的时候不能简单的将分层的数据相加汇总,汇总后的数据产出的结论可能有悖于分层分析得到的结论。以加州伯克利录取数据为例,每个学院都是女生的录取率高,汇总到一起后反而是女生的录取率低。
辛普森悖论产生的 3 个前提条件,以加州伯克利录取数据为例
上述 1,2 总结起来就是分层的维度同时影响了对照组(性别)和目标指标(录取率)。
基于上述的前提,给出一个通俗的解释:为何女生总体的录取率较低?因为女生“大多数”选择了难道系数太高的文学院,导致“淘汰”了太多人。