考研是“阴盛阳衰”吗?试试成功上岸统计学

又是一年研究生开学季。和同事闲聊,都说现在女生会考试,普遍比男生成绩高。

有“较真”者,偏要用数字来证明:据说我们学院两个学科“生物医学工程”和“食品科学与工程”共招收了445人,算一算男生和女生哪个考分高(比如总分超过300分的人数)。

计算这个比例得知,男生是202/246=82%,女生是162/199=81%。

看吧,还是男生学习好一点点,还是“阳盛阴衰”啊。

不过更“较真”者,说本科里都是女生“学霸”多,敢报学硕的也多,看看学硕和专硕各自的比例吧:

对于两个专业的学硕,男生是65/88=74%,女生是71/94=76%

对于两个专业的专硕,男生是137/158=87%,女生是91/105=87%

咦,这么看,好像是女生成绩更好些(起码不比男生差)。

也就是说,分学硕和专硕时,女生成绩高、男生成绩低;学硕和专硕加起来,却是男生成绩高、女生成绩低。

问题出在哪呢?

估计懂行的人都看出来了,这是著名的“辛普森悖论”现实版之一,由英国统计学家辛普森于1951年提出的悖论,即在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

我们用数学上的条件概率来转换上面的结果:

性别X

学硕和专硕Y

成绩300分Z

0

只看专硕

低于

1

只看学硕

高于

那么,不区分的总体来看:

男生成绩 P(Z=1〡X=1) = 0.82 记为式A

女生成绩 P(Z=1〡X=0) = 0.81 记为式B

只看学硕:

男生成绩 P(Z=1〡X=1, Y=1) = 0.74 记为式①

女生成绩 P(Z=1〡X=0, Y=1) = 0.76 记为式②

只看专硕:

男生成绩 P(Z=1〡X=1, Y=0) = 0.87 记为式③

女生成绩 P(Z=1〡X=0, Y=0) = 0.87 记为式④

为了简化表达,我们把X, Y, Z = 0的情况分别记为X’, Y’和X’,而X, Y, Z = 1的保持不变。

那么以上6个值依次改写为:

P(Z〡X) = 0.82 式A

P(Z〡X’) = 0.81 式B

P(Z〡X, Y) = 0.74 式①

P(Z〡X’, Y) = 0.76 式②

P(Z〡X, Y’) = 0.87 式③

P(Z〡X’, Y’) = 0.87 式④

根据概率知识,其中男生总体可分解如下:

P(Z〡X) = P(Z〡X, Y) · P(Y〡X) + P(Z〡X, Y’) · P(Y’〡X)

即:

A = ① · P(Y〡X) + ③ · P(Y’〡X)

此式中P(Y〡X)和P(Y’〡X)没有在上面出现过,分别表示男生里学硕的概率和专硕的概率,当然可知P(Y〡X) + P(Y’〡X) = 1。

为了再简化,令Q = P(Y〡X),上式变为:

A = ① · Q + ③ · (1 – Q)

类似的女生情况:

B = ② · P(Y〡X’) + ④ · P(Y’〡X’)

此式里,P(Y〡X’)和P(Y’〡X’) 分别表示女生里学硕的概率和专硕的概率,同样P(Y〡X’) + P(Y’〡X’) = 1,也令Q’ = P(Y〡X’),上式变为:

B = ② · Q’ + ④ · (1 – Q’)

画成坐标系的结果如下:

因此看成分类的话,男生<女生。为什么总体上会男生>女生呢?

我们可以这样认为:男生成绩A在实线①→③上移动,而女生成绩B在点画线②→④上移动。

而且,如正好在“*”处,那么总体上成绩男生A<女生B,与分类时一致;相反地,A > B,与分类时不一致。

很显然,“*”在何处取决于Q和Q’的取值。Q影响男生A,Q’影响女生B。

比如真的是女生学硕多,那么Q’大,B线上的“*”就接近④,如果这时正好是男生学硕少,Q小,A线上的“*”更接近①,正好低于B线上的(如上图显示),那么就是总体上男生就低于女生的,与分类时一致;反之,就不时一致。

换一种不太抽象的解释,原点O分别和A、B的连线分别组成O-①-③和O-②-④两个三角形向量,示意图如下:

因此,不光要看①-②、③-④的比较,还要看连成变量后总的A、B的情况。

我们还可以换一种角度,根据下图,本来我们要考察性别X对成绩Z的影响,但现在增加了学硕/专硕Y的影响:

如果女生真的成绩高,加了区分学硕和专硕这个混扰变量,如果还是保持一致的趋势,一定要满足的条件是:女生报学硕的多,同时男生报学硕的少;否则,就可能发生不一致的情况。

例如上图这样的影响模式,看总体X→Z比加上了“干扰项Y”变成X→Y→Z更合适些。

看来,统计真的会说谎,这个辛普森悖论还有更多的演化版。从当前的实例看,男女生的成绩是差别不大的,基本上是“阴阳和谐”呗,要想成功上岸,还是要靠多努力、多积累。

有言道:If you don’t trust people, you can trust data.

我加一句:If you don’t trust data, you can trust yourself.

作者:董庆利

免责声明:


凡本网注明“来源:长征网”的所有作品,版权均属于作者和长征网共有,并不代表本网赞同其观点和对其真实性负责。未经本网授权不得转载、摘编或利用其它方式使用上述作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:长征网”。纸媒使用稿子,须告知本网站,由本网站提供作者联系方式,由纸媒支付稿酬。违反上述声明者,本网将追究其相关法律责任。


凡本网注明“来源:XXXXX(非长征网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如作品内容、版权等存在问题,请在两周内同本网联系。长征网暂未实行稿件付费制,所有投稿的作者,本网均视为充分理解并接受此项声明。

返回顶部