为什么已发表的研究结果大多是错的？

2017-03-30 by:CAE仿真在线来源:互联网

通常人们会将自己的研究成果发布出来,或为科学的进步添砖加瓦,或为他人提供一种新的解决问题的经验方法,同时还可以收获很多对自己有利的影响。然而其中很多是错的,科学的可重复性危机已经成为举世瞩目的热点议题。

科学的可重复性危机

科学的可重复性危机已经成为举世瞩目的热点议题。

为什么已发表的研究结果大多是错的？ansys分析案例图片1

自2005年斯坦福大学教授 John Ioannidis 在 PLOS Medicine 杂志上发表论文《为什么已发表的研究结果大多是错的》(Why Most Published Findings Are False)以来,越来越多错误、误导性或不可重复的科研成果纷纷被曝出。

为什么已发表的研究结果大多是错的？ansys结果图片2

两大制药公司各就具有“里程碑”意义的癌症生物学论文进行取样,分别只证实了6%、11%的研究结果。还有一项类似的验证实验,结果也不尽如人意:在重新验证药效时,70种用于治疗老鼠肌萎缩(ALS)的潜在药物靶点全部呈阴性。

在心理学领域,研究人员们试图重复100项同行评议过的研究,仅有39项重复成功……尽管大多数重复实验集中于生物医学、健康以及心理学领域,但近期的一份由多领域1500位科学家进行的调查显示,科研结果可重复性低的问题是广泛存在的。

起于科学界流言的“可重复性危机”,已摇身一变为举世瞩目的热点议题。几乎所诸多主流报纸、TED 主题演讲、电视节目都曾热议这一问题。

对于这一问题的解读分为两种:

科学就是这样。科学本身具有不确定性,矛盾屡见不鲜。问题是我们没有摆正自己对科学的期许。解决方法就是把还没盖棺定论的科研成果和已经确定的科研成果区分开来。
科学并非如此。矛盾的研究意味着有瑕疵的科学。相应的解决方法则是改变科学研究的操作方式。

可重复性的证据表明两者皆对:科学固有不确定性,且其方法有待改进。

科学的方法“科学”吗?

如果科学的方法是“科学”的,为什么相同的实验会产生不同的结果呢?

为了便于理解,我们可以设想一个测试重力理论的简单实验。几个世纪中,亚里士多德的理论盛行:物体下落的速度与其重量成比例。如果你同时扔一个石头和羽毛,重点儿的石头比轻点儿的羽毛下降的快。这证明了亚里士多德的理论吗?

现在我们来想象一下,亚里士多德理论的质疑者伽利略同时扔下炮弹和步枪弹。这是对于一个相同理论的不同验证方法。尽管各自的重量是大有不同的,两个球仍同时落地。这个演示有效地证明了亚里士多德的理论是错误的(尽管没有任何证据显示伽利略本人做过)。

为什么已发表的研究结果大多是错的？ansys结果图片3

故事的意义不是亚里士多德彻底地错了。他的观察仍然是对的,一片羽毛总是比石头下落的慢(在地球上)。仅仅是他的结论错了。

这个思想实验说明了科学家得出的结论如何超出了实际证据——这一过程就是所谓的归纳法。归纳是科学进程里的本质部分,没有两个实验可以完全相同,这显而易见的事实可以解释为什么许多科学理论会失败。

细节重于泰山

在17世纪,罗伯特·波义耳(Robert Boyle)的气泵是研究真空属性的一个关键设备。另一位科学家克里斯蒂安·惠更斯(Christiaan Huygens)打造了他的空气泵(当时世界上仅有的几个空气泵之一),并发现一个现象:在空气泵中,水悬浮于玻璃罐内。

他称之为水的“异常悬浮”。但是波义耳无法在他的气泵里重复效果,遂拒绝了惠更斯主张。争议持续几个月后,惠更斯前往英格兰用波义耳的气泵重复出了水悬浮的效果,于是水的异常悬浮现象被接受。它为何出现、意味着什么仍然是谜,但是实验重复成功了。

最近,加州大学伯克利分校的乳腺癌研究员 Mina Bissell 和哈佛大学的合作者 Kornelia Polyak 发生了类似的争议。这两个实验室利用荧光激活细胞分选(FACS)人类乳腺癌细胞,发现无法重复彼此的实验。

最终他们通过共同进行实验解决了这一问题。他们发现,结果取决于振荡细胞的方式——“大力搅拌”或者“较轻微地摇晃”。排除方法上的差异后,两个实验室获得了一致的流式细胞仪数据,从而得以继续深入研究。

亚里士多德与伽利略、波义耳与惠更斯以及 Bissell 与 Polyak 的争议,都源于实验中的不一致之处。如果所有实验条件都相同,实验的现象就会很稳定。实验结果不一样,就说明有些条件是有差别的,问题就在于,你能不能发现差别在哪里。

然而也并非所有的科学研究都会如此。

科学中的一千个哈姆雷特

1978年,陶氏化学研究者 Richard Kociba 进行了关于癌症和二噁英关系的研究。在这项研究中,科学家对老鼠喂食二噁英两年,随后对其肺部切片,以检测肿瘤的生长。

在1978年研究中,服用化学物质的50只老鼠中有20只长了肺部肿瘤。1980年,环境保护局重新分析了相同的肺部切片。这一次,他们发现有29只老鼠患了肿瘤。

随后在1990年,造纸行业委托另一个分析报告发现只有9只老鼠患肿瘤。3个不同的结果均来自相同的切片。(1990年的分析由七位病理学家组成的团队完成,当团队无法对肿瘤判断达成一致时,采取少数服从多数原则。)

Kociba 的切片告诉我们:变化、不确定性和判断可以使给定的一个观察实验指向不同的结果。

同样的事情也发生在统计分析中。

2015年,Brian Nosek 和开放科学中心做了一项研究,研究问题是足球裁判给深肤色球员的红牌是否比浅肤色的球员多。Nosek 和他的同事们将相同的数据分别给了29支分析师团队,咨询他们的意见(分析师们都知道他们的结果会与他人的对比)。

就像 Kociba 的肝脏切片一样,完全相同的足球数据产生了不同的结果。有几个团队报道浅肤色和深肤色之间没有差别,也有人指出深肤色球员被判红牌的几率比浅肤色球员高近3倍,而其他人则认为这个增长值约有20%~40%。

这些研究中的科学问题,本质上与亚里士多德的重力研究、波义的真空问题、Bissell 的荧光激活细胞分选完全不一样。

当谈论到二噁英、肝癌或者肤色深浅和红牌数量时,关键的可变因素难以测量,结果难以预测。一些未注射二噁英的老鼠也会长肿瘤;深肤色并不代表一定得到红牌,浅肤色也不会总得到赦免。

最终人们证明二噁英与癌症有关;在足球裁判案例中,肤色确实影响了拿红牌的概率。对这两个案例而言,怎样产生影响、影响到什么程度仍然很难确定,但不一致并不总是意味着研究毫无意义。

结果不一致,不一定意味着哪里出错了,或者哪里需要调整。相反,实验常会受到研究体系或测量方法的干扰。当重复含有大量干扰的研究时,说它们“不可重复”可能不太恰当。如果你汇总多个相同的研究(这一过程称为荟萃分析),最终结论将趋于事实的真相。

如果问题不在科学

在某些情况下,不可重复性确实反映了不确定性。但另一些情况下,它也意味着疏忽、欺骗和不当行为。

顶级医学杂志《柳叶刀》的主编 Richard Horton,在2015年写道:“大部分的科学文献,也许一半,都可能是不真实的。由于研究样本较小、效果甚微、无效的探索性分析、明显的利益冲突,再加上痴迷追求若有若无的‘重大发现’,科学已转向黑暗。”而值得注意的是,Horton 的声明虽然仅指向医学文献,但也对科学真理的晴雨表——同行评议提出了质疑。

同行评议期刊已经成为科学可信度的守门人。但随着从科学期刊撤稿的数量增多,这头衔也摇摇欲坠。自2001年到2009年,撤稿数增加了十倍,2012年的一项分析发现:生物医学数据库(PubMed)上三分之二的撤稿缘于学术不端。

这些问题在医学学科尤其严重。例如,人们发现一乳腺癌细胞系实际上是皮肤癌细胞系,导致超过1000个研究被判无效。另一起案例中,专业数据统计包的软件缺陷可能导致数以万计的功能磁共振成像研究失效。

当安进生物科技公司(Amgen)证实了53个“里程碑”癌症实验中仅有6个能够重复,第一作者格伦贝格利指出,“不可重复的研究有一些共性,包括关键试剂的不当使用、缺乏阴性和阳性对照、不当统计和未重复试验。如果研究人员重复了实验,数据往往已经过重重‘选择’,维护他们想要的结果。”在这种情况下,首要问题不是重复性,而是实验设计是否得当。

有些研究对实验方法和数据分析的介绍不全面,这是个同行评议完全可以修正的缺陷。有些科学家没有透露如何分析数据,从而说明他们的结果统计显著——即使它们并不显著。

例如,一个社会心理学家团队曾证明一个离谱的假设:听儿歌可以使人减龄。他们公开的研究技术(俗称“p-hacking”)“证明”,听儿歌后人确实变年轻了。不仅如此,研究者还用这些技术处理了电脑随机生成的数据,发现有高达61%的概率得到标准的统计显著结果(p<0.05,统计学上的倾向)。

故意的 p-hacking 行为构成欺诈,但在研究过程中,当科学家必须做出会影响科研结果的决定时,不当行为与无心之差的界限就变得非常模糊。

在足球裁判的研究中,进行足球数据分析的29组团队,20组发现结果是“统计显著”而九组没有。现在想象一下,一个研究人员做了所有29组分析,只能选择一个报告。如果你想发表成果,你会选择哪一个?这样的选择,也许是已发表论点不可重复或被证伪的最大原因。

假象与真相

重复性危机和可能的解决方式起源于上世纪七十年代。

1976年,海盗1号宇宙飞船在火星上干尼亚地区(Cydonia region)拍摄的照片看起来就像一个人的脸。数天后,NASA 发布了这张“脸”的照片,立刻引起了媒体界的轰动,当时甚至有人出书声称,火星上有着类人生物的文明,还建了金字塔。

为什么已发表的研究结果大多是错的？ansys结果图片4