学院来信493:辛普森悖论-吸烟者存活率比不吸烟者高,可能吗?

研究表明:吸烟者的存活率比不吸烟者的存活率要高。

你觉得可能吗?20年前的一份吸烟者疾病研究报告确实得出过这个结论:数据显示吸烟者的存活率是76%,不吸烟者的存活率是60%,且吸烟者比不吸烟者的平均寿命要多出20年。 The data don't lie.? 真的是这样吗?

一、辛普森悖论。

辛普森悖论是指:在分组比较中都占优势的一方,在总评中反而变成劣势的一方。反之亦然。 举个例子,假设A医生发现了药物D。药物D能降低心脏病的发病率,研究观测数据如下:

女性(未服药):心脏病发作1人,心脏病未发作19人,发病率5%;

女性(服药):心脏病发作3人,心脏病未发作37人,发病率7.5%;

男性(未服药):心脏病发作12人,心脏病未发作28人,发病率30%;

男性(服药):心脏病发作8人,心脏病未发作12人,发病率40%;

合计(未服药):心脏病发作13人,心脏病未发作47人,发病率21.7%;

合计(服药):心脏病发作11人,心脏病未发作49人,发病率18.3%。

研究结论:

①男性患者,服用了药物D,心脏病发作的风险从30%变为40%,发病风险 变高了 。

②女性患者,服用了药物D,心脏病发作的风险从5%变为7.5%,发病风险同样 变高了 。

③汇总数据,服用了药物D,心脏病发作的风险从21.7%变为18.3%,整体发病风险却 变低了 。

药物D对男性有害,对女性也有害,但对人类有益, 结果竟如此神奇。

二、问题出在哪里?

问题在于数据中包含混杂因子:性别。 回顾数据可以发现,无论吃药与否,男性的发病率远高于女性。如果将服药样本中的女性数量增加,整体发病率自然就会降低。同理,如果将不吃药样本的男性数量增加,也可以抬高样本的整体发病率。

所以,对于药物D,科学的计算方式应该是:

①对女性而言,未服药的发病率5%;对男性而言,未服药的发病率30%;假设男女比例为1:1,未服药群体的平均发病率为17.5%。

②对女性而言,服药的发病率7.5%;对男性而言,服药的发病率40%;假设男女比例为1:1,服药群体的平均发病率为23.75%。

结论:吃了药物D,群体发病率从17.5%变为23.75%。这药有毒,不能吃。

三、吸烟者的存活率。

回到文章开篇的问题,为什么会有这种违背常识的结论?

吸烟者的存活率是76%,不吸烟者的存活率是60%,且吸烟者比不吸烟者的平均寿命要多出20年。

问题在于数据中包含混杂因子:年龄。 我们看不到研究报告里的底层数据,但很可能样本中吸烟者平均年龄比不吸烟者要小。这样一来,吸烟者的存活率肯定要高,因为他们更年轻。就好比找100个20岁的烟民+100个90岁的不吸烟者来研究,10年后大概率100个烟民还活着,100个不吸烟者挂了90个,然后我们得出结论:不吸烟有害健康。

还记得昨天(学院来信491)的结论吗?我们无形中会过滤掉部分样本,比如无趣的渣男。在吸烟者的研究中,当然研究人员不会去故意制造这种极端情况,他们很可能是随机从20岁、30岁、40岁、50岁、60岁、70岁、80岁、90岁、100岁...的人群中去选择研究样本。但事实上年纪越大,吸烟者与不吸烟者的比例就越失调,因为很多老烟民已经去世了,从而导致了吸烟者研究对象比不吸烟研究对象更年轻的结果。

在这个案例中, 我们只有根据年龄来进行数据分割,才能得出正确的结果:吸烟对存活率有负面影响。

①在20岁群体中,吸烟者的存活率是A%,不吸烟者的存活率是B%,

②在30岁群体中,吸烟者的存活率是C%,不吸烟者的存活率是D%,

......

四、篮球与投资。

知识需要关联与延展。在我们生活中,还可能发生哪些类似的事情呢?

比如,篮球。

A和B同学喜欢打篮球,于是他们各找100个人单挑。

A找了50个高手和50个菜鸟,和高手单挑50场赢了5场,和菜鸟单挑50场赢了25场,总胜率30%。

B找了20个高手和80个菜鸟,和高手单挑20场赢了1场,和菜鸟单挑80场赢了32场,总胜率33%。

从胜率上看,B比A胜率高。 但从实力上来看,A比B强得多。

?

比如,投资。

和高手打球就好比胜率很低,但盈利很大的交易。

和菜鸟打球就好比胜率偏高,但盈利较低的交易。

我们该追求策略胜率,还是整体盈利呢?答案显然是后者。

吉姆·罗杰斯将其投资经验总结为“40败3胜”。在其长达半个世纪的投资生涯中,罗杰斯屡屡犯错、屡屡失败。然而,3胜的分量,远超40败。只要3胜的战果足够大,便足以弥补40败的损失,让你最终获得巨大的收益。

“40败3胜”背后还有一个需要注意的问题,那就是风险控制:因为大多数人的生命中,属于你的3胜不大可能连续出现,每次胜利之间可能会间隔无数次的失败,所以我们要做的是将损失控制在最低限度,这样才可能反败为胜。 说白了,无论是“40败3胜”还是“80败1胜”,其关键都是活下去,当胜利来临时,我们得确保自己仍然在场。

?

五、人生的质量。

新的一年又到了“树目标、冲业绩”的时候,我们需要认识到,对于这些目标和业绩,“量”与“质”是不同的。

“量”更容易测量,比如篮球比赛的胜率、交易的胜率等。

“质”则较难衡量,比如篮球对手的水平、胜利的盈利情况等。

但社会大众总是习惯以“量”来衡量好坏,却忽略了生命中的“质”才是关键。 由此带来的启示是:

①如果我们像喜欢找高手单挑的A同学一样,选择了一条相对难走的路,就得做好有可能不被赏识、不被理解、不被认可的准备,因为我们的表现(胜率)会比较难看。

②如果我们是一个能力有限的球员,要想获得大众认可,选择混竞争较小的CBA可能会比去高手如云的NBA更好,因为我们的表现(数据)会更出彩一些。

六、结语。

The data don't lie.

数据不说谎,但收集数据和解读数据的人会。

所以,相信数据,但别迷信专家。

祝大家生活愉快。

参考文献:

1.Grinstead, C. M., and Snell, J. L. (1998). Introduction to Probability. 2nd rev. ed. American Mathematical Society, Providence, RI.

2.Pearl, J.(2014). Understanding Simposon's Paradox. American Statistician 88: 8-13.