查看原文
其他

有多少圆满研究,是科学家骗到了自己

Nature自然科研 Nature自然科研 2019-06-30

原文以How scientists fool themselves – and how they can stop为标题

发布在2015年10月7日的《自然》新闻特写上

原文作者:Regina Nuzzo 

人类非常善于自欺欺人。但是随着关于可重复性问题的疑虑不断增长,许多科学家开始寻找对抗自己本能的方法。

哥伦比亚大学统计学家Andrew Gelman曾经写过一篇文章证明“美国民主党候选人只要稍微在经济政策上右倾,就可以获得更多选票”。5年后的2013年,他悲伤地发现自己的数据分析中出了个问题一名叫做Yang Yang Hu的本科生在重复这项研究的时候,发现Gelman在一个变量上搞错了符号

图片:Illustration by Dale Edwin Murray

Gelman立即发表了一份3句话的勘误,声明除非有别的证据,否则论文关键部分的信息应被视为无效。


回顾当初,Gelman把自己的错误归咎于人类大脑的天然缺陷:“结果看起来完美无瑕。很多时候如果有这种编码错误,你得到的结果会贻笑大方,因此你就知道什么出错了,就会回去查看直到发现错误。但是如果一切看起来没毛病,错误就很容易从眼皮底下溜过。”


这是科学里的一个大问题,但却鲜有人提及:即使是一个刚正不阿的人也会成为自我欺骗专家。我们的大脑是在非洲大草原上演化而来的,成熟的果子在哪里,掠食者在哪里,是否能忽略过程直取结论事关生死。


但是,躲避狮子的明智策略并不适应现代科学。如今,是否能取得终身教职取决于对无数多维数据的分析。我们直接下结论的“天赋”使我们容易在随机中找出虚假的模式,忽略某个结果的其他解释,或者不假思索地接受看起来“合理”的结果。这些倾向不断地使我们误入歧途而不自知。


斯坦福荟萃研究创新中心(Meta-Research Innovation Center)的联合主任、统计学家John Ioannidis表示,意识不到自己的偏见导致了对于已发表论文的可重复性产生信任危机。这个问题比造假的问题更大。今年早些时候,一个尝试重复100项心理学实验的大型项目仅仅重复出了三分之一多一点的研究结果。


2012年,生物技术公司安进(Amgen)的研究者报告称,对于53项肿瘤学和血液学的划时代研究,他们只能重复出6项。2009年,Ioannidis和同事表示,他们只能完整重复出18项基于微阵列技术的基因表达研究中的2项。


Ioannidis说,虽然不可能查证在数据分析中研究者自我欺骗的频率,但是不可重复性需要一个说法。对100篇心理学论文的研究已经道出了原委:如果有人认为大多数原作者是诚实勤奋的话,那么大部分问题就只能由无意识的偏差解释。


他说,“这是对研究进行研究的好时代。科学的巨量发展产生了可供研究的巨量的结果,巨量的错误,以及巨量的偏见。有理由相信,我们可以找到更好的解决这些问题的方法。”


斯坦福大学社会学家Robert MacCoun 表示,“类似可重复性的问题出现时,恰好是更新科学工具的契机。”这样的情况在过去也发生过。20世纪中期,科学家们意识到实验者和被试常常无意识地改变自己的行为以符合外部预期。从那时起,双盲程序就诞生了。


加州大学伯克利分校的天体物理学家Saul Perlmutter 说:“人们常会忘记,当我们在探讨科学方法的时候,我们说的不是一件成品。科学是一场持续不断的竞赛,比赛的一方是我们为了自欺而创造的方法,对阵的是我们为了避免自欺而创造的方法。”因此研究者正在创造新的方法来为数据分析消除偏误,包括和对手合作,在研究开始前就投稿,以及处理专门精心编造的数据。


问题的核心

非营利机构开放科学中心(Center for Open Science)的执行总监、心理学家Brian Nosek说,虽然从人类进行科学研究开始,人类的大脑和认知偏见从未改变,但是一些重要的方面的确发生了变化,目前的科研环境比之前更加具有竞争性。(开放科学中心的目标是增加科学研究的透明度和可重复性。)


现在的科学界强调发表统计显著的结果。统计显著指的是,常用来测量统计显著性的指标p值要小于等于0.05。Nosek表示,“作为研究者,我尽力避免做出误导人的结果。但是研究的成败确实和我有利益关系。”这就给了人寻找符合预期的结果的有力动机。


另外一个值得重视的认知偏差在于,超大规模的多变量数据集往往包含海量随机噪音,而真实的信号在这些噪音中显得非常微弱。德州大学安德森癌症中心的统计学家Keith Baggerly在去年9月的生物信息难点大会上表示,目前的统计方法只能勉强处理这些数据,我们的大脑就更加不在行了,“在研究50个甚至上百个变量时,我们的直觉糟透了。”


达特茅斯学院的管理学专家Andrew King表示,简单易用的数据分析软件的普及让研究者容易在没搞清楚统计方法之前就可以轻松分析海量数据,得到可能没有任何意义的p值。他说,“我相信我们正处于社会科学的‘兴奋剂滥用’时代,我自己也曾经用过一些让数据变好看的方法。我猜大多数研究者至少都中招过一次。”


加州大学圣迭戈分校的心理学家Hal Pashler提出,现在的科学正如竞技体育,对漂亮结果的追逐催生出一个恶性循环。他说,当一些行为神经科学研究开始报告像0.85这样强到不可思议的相关性时,其他那些只得到更弱(但更真实)的结果的研究者开始忧心忡忡:“天呐,我的相关性只有0.4,可能我做得还不够好。”



假设导致的短视

在研究初期出现的一个陷阱可以叫做假设导致的短视:研究者只顾着搜集支持某个假说的证据,却忽略了相反的证据,或者没有考虑其他的可能解释。宾夕法尼亚大学心理学家Jonathan Baron 表示,“人们总是爱提那种答案可以支持他们的假设的问题。”


Baron举了个例子,一些研究试图证明厌恶感会加重道德批判,“研究者让被试待在乱糟糟的,或者喷了‘臭屁’味喷雾的房间里”。接着被试被要求评判一些道德失范行为。如果待在乱糟糟的房间或者臭屁味房间里的人支持更加严厉的惩罚,那么研究人员就会说他们的“厌恶感假说”得到了支持。但是,他们却没有考虑其他的竞争性解释,比如被试可能是因为受到了恶劣的待遇生气了,所以才会严厉批判别人,而不仅仅是因为恶心厌恶。在这种情况下,研究人员可能只见树木,不见森林。


法庭上也面临类似的问题。1999年,一名叫做Sally Clark的英国妇女被控谋杀自己的两个儿子,因为这两个婴儿突然就死了。判决时的一项证据是,在同一户人家里,两个孩子都死于“婴儿猝死综合征”(SIDS)的概率只有7300万分之一。这个数字被认为是定罪的有力证据。


但是,只考虑一种假设就会忽略其他可能性。2002年,统计学家Peter Green代表皇家统计学会发表报告指出(见go.nature.com/ochsja),“只看两个孩子都死于SIDS的概率低是没有意义的,因为两个孩子都死于谋杀的概率更低。最重要的是考虑在每种可能性下死亡的相对概率,而不是在一种可能性下的概率。”


英国索尔福德大学的数学家Ray Hill后来估计,两个孩子都死于SIDS的可能性大概只有29.7万分之一,这是谋杀的可能性的9倍。2003年,新证据出现后,Clark的判决被推翻。英格兰及威尔士总检察长接着又释放了其他两名被判谋杀亲子的女性,她们也是因为类似的统计推断而被判刑的。


德州神枪手谬误

在数据分析过程中另外一个容易遇到的认知陷阱可由德州神枪手的寓言来解释。有一个无能的枪手在谷仓的一边随机乱打了几枪,然后在枪眼最密集的地方画了一个靶子,接着向人夸耀自己的枪法。


他的把戏让人嗤之以鼻,但是对于那些连续赢了几盘正在“风头”上的赌徒,以及把抽签抽出的所有奇数视为超自然力量的看客来说,德州神枪手谬误却不那么容易觉察了。


研究者有时也容易掉入这个陷阱。Pashler说,“你从数据中受到了鼓舞,你以为沿着这条路走下去是对的。但是你没有意识到,你有27种不同的选择,你只是选了结果最让你满意的,或最有趣的那一个。因此,你得到的结果并不能无偏地代表数据。”


宾夕法尼亚大学的心理学家Uri Simonsohn在定义“p值操纵”(p-hacking)时也明确指出了上面这条谬误:“科研人员(或许无意识地)滥用研究者的自由度,直到p < 0.05 ”。


2012年,一向涵盖逾2000名美国心理学家的研究发现,p值操纵非常普遍。一半的受访者只选择性地报告那些“成功了”的研究,58%的人在研究过程中同时进行数据分析,以判断是否要增加数据,43%的人在判断了数据对p值的影响后才决定要不要删除一部分数据,35%的人把意外的结果当成预期结果来报告(这种行为被密歇根州立大学的心理学家Norbert Kerr称为HARKing——知道了结果以后提出假设)。研究者们不但承认自己做过这些事,还为自己的行为辩驳。


今年5月,一名记者报告称,他和一个德国纪录片制作者合作,证明p值操纵可以用来“证明”吃巧克力可以减肥,降低胆固醇水平,提高幸福感(见go.nature.com/blkpke)。


而他们仅花了一个周末,就边喝啤酒边炮制出了这个实验。他们搜集了15个人的18个不同指标,包括体重、血蛋白含量和睡眠质量,其中一些人在过去的几周里比平时多吃了一些巧克力。在这么多指标可以用来做研究的情况下,至少有一个指标因为偶然而达到统计显著的概率超过一半。结果,3个指标达到了统计显著的标准,于是乎他们就挑选了这3个指标写到了报告里。


不对等的注意

数据核查阶段也存在陷阱:人对细节的注意是不对等的。这个现象有时也被称为“不证实偏见”(disconfirmation bias):我们对预料之中的结果不加核查,但是对意料之外的结果却反复推敲。MacCoun说,“当数据和过去的预计不符时,你会想,‘天呐,我是不是搞错了?’但是我们没有意识到,或许在数据能支持假设的情况下也应该仔细审查。”


有证据显示,科学家们的不证实偏见比我们想象的要多。2004年的一项研究观察了3个顶尖分子生物学实验室的研究人员对165项不同实验的讨论。如果结果和预期不符,在88%的情况下这些人会把这种差异归咎于实验过程而不是自己的理论。但是,如果结果和预期相符,他们几乎不对结果进行核查。


2011年,一项对250篇心理学论文的分析发现,超过1/10的p值是错误的;而当错误大到可以影响结果的统计显著性时,90%以上的错误都支持研究者的假设,这就让本来统计不显著的结果变得显著了。


原来如此的故事

在整理和解释数据分析得到的结果时,研究人员常常会掉入“原来如此的故事”的陷阱里。这个认知偏误的名字来源于鲁德亚德·吉卜林的故事,意思是用无中生有的理论来解释事物,比如猎豹斑点的来源。


这个谬误的问题在于,人们总是可以在事后构想出一套理由来解释任何结果,这么做的话,解释了等于没解释。Baggerly表示,他曾经在遗传学研究中见过这种谬误,比如在研究大量基因和某种特质或结果的关系时。他在前述生物信息会议上指出,“这就好比罗夏墨迹测试”,研究者总能找到一个理由来解释结果,“不管这个理由是不是真实可信的。但有时这些理由是站不住脚的。” 


此外,研究者还容易为没有按照预期发展的结果找理由,这叫做JARKing——为失败的结果找理由。伦敦国王学院(King's College London)的统计学家Matthew Hankins收集了500多个“创造性”的句子,这些句子都是研究者用来说服读者,他们的统计不显著的结果依然有意义(见go.nature.com/pwctoq)。比如,“在传统显著性水平的附近跃跃欲试(p > 0.1)”,“徘徊在显著性的边缘(p = 0.099)”,以及“并不绝对显著,但是很可能显著(p > 0.05)”。


解决方案

在每个陷阱里,认知偏差都在给科学使绊子,妨碍科学家找到真正重要的科学发现。想要遏制这些认知偏差,就要给科学踩个“刹车”:要慢下来,给科研成果挑挑刺,消除假阳性的结果和死胡同的研究方向。


其中一个引起了不少人兴趣的解决方案刺激了一种传统回归:明确考虑竞争假设,并在可能的情况下设计实验来区分它们。这种方法叫做强推断(strong inference),它可以正面攻击“假设导致的短视”。此外,如果科学家罗列出试验结果的若干种潜在解释,那么他们编造“原来如此故事”的可能性就会降低。


2013年,研究者在一项关于南美洲泡蟾(Engystomops pustulosus)用求偶鸣叫吸引雌性的研究中采用了强推断技术。已有的数据可通过两种竞争理论得到同等的解释,其一是,雌性对求偶鸣叫存在天生的神经回路,另外一个理论是,雌性会灵活地结合听觉和视觉信号(如雄性的声囊)


研究者设计了一个实验,这个实验里两种不同的理论会产生了相反的预测。结果显示,雌性南美洲泡蟾采用多感觉信息来判断异性的吸引力。


透明度

另外一个兴起的解决方法是开放科学。开放科学的核心是,研究者在中央数据库(如开放科学中心的Open Science Framework)里分享研究方法、数据、计算机代码和结果。在这些平台上,研究者可以让科研项目的不同部分接受外部检验。


Nosek表示,一般来说,“在分析数据和报告结果方面我有很大的自由,这就会导致利益冲突。避免这件事发生的方法就是事先对我进行约束。遵从事先决定的数据分析和结果报告方案就可以减少这些认知偏差的影响。”


这个观点还有更激进的延伸——引入注册报告。注册报告指的是,研究者在做实验之前就让他们的研究方案接受同行评议。如果研究方案得到了肯定,那么不管结果是强是弱,研究者都得到论文发表的原则性保证。Pashler认为,这可以减少无意识扭曲数据分析的动机。


他还提到,这个方法还可以避免审稿人在看到结果后贬低或批评研究结果,“人们在不知道结果好坏的情况下评价研究方法,这可以让审稿人更加诚实。”超过20本期刊计划或已经提供某种形式的注册报告。


联合对手

涉及重复实验或者有争议性的话题时,消除认知偏差的一个良方就是放下学术界的针锋相对,转而邀请对手一起合作。


普林斯顿大学的心理学家Daniel Kahneman表示,相较于传统的合作方法,和对手合作有诸多优势,“你要知道你没有办法完全改变谁的想法,但是你可以把这种差异转化为有趣的辩论和智力的交流,供人倾听和评估。”他说,在存在竞争假设和理论的情况下,对手可以很快地发现“假设导致的短视”,“不对等的注意”,“原来如此的故事”这些认知偏差,并且通过有利于他的偏差来平衡你的偏差。


阿姆斯特丹大学的心理学家Eric-Jan Wagenmakers也曾参与过类似的与对手合作的科研项目。他想重复另外一个团队的研究,因此和他们组队。这项研究发现水平眼动可以帮助人们提取记忆。他说,通常如果自己的研究正在被对手审查,一般人很难和对手达成合作。这类合作邀请就好比“请人把头放到断头台上一样。输了就都完了,赢了也没什么意思。”


但是和他合作的团队也急于寻找真相。最终,结果没有被重复出来。怀疑者依旧怀疑,支持者却没有被一次的重复失败击倒。不过,双方并没有僵持不下。这些研究者写道,“虽然我们和对手的合作并没有解决争议,但是这次合作催生了许多可以研究的想法,还把双方的距离拉近了。”


Wagenmakers 提出了几种可以促进此类合作的方法,包括设立一个最佳竞争合作奖,或者在顶级期刊上为类似合作开辟专栏。


数据盲分析

另一种消除偏差的方法在物理学领域已经有非常久的应用历史了,但是其他学科对此并不熟悉,这就是盲数据分析。盲数据分析的原理是,如果科学家并不知道结果和假设的差异的话,那么他们的分析过程就不太会受到无意识的认知偏差的影响。


比如,可以写一个程序来给原始数据加一些随机噪音或者内隐的偏量,把某个组的数据并入另一个组,或者把人口统计数据隐藏起来。科学家可以像以往那样对假数据集进行操作——清理数据、剔除异常值、接着进行数据分析,甚至直接“美化”结果。但是计算机会将这些操作应用于真实的数据。


科学家并不知道他们分析出来的结论到底有没有科学价值,只有到最后他们才能看到真正的结果,而此后对数据进行的任何操作都可以被视为学术不端。


Perlmutter曾在21世纪00年代中期的超新星宇宙学计划(Supernova Cosmology Project)中让他的团队使用这个方法。他知道科学家欺骗自己的本事不小。他们使用这种新技术来验证两项关键的宇宙物理量——物质与暗物质的相对丰度。这两个数据结合起来可以揭示宇宙到底是会永远膨胀还是最终走向大坍缩(Big Crunch)


他们的数据被添加了一个偏移量,但是只有计算机知道这个量是多少,他们本身并不知道数据的意义。只有在所有人认同分析处理过程的情况下,真实的结果才会被呈现出来。


最终的结果不仅验证了宇宙膨胀假设,还让他们对这个结果更加有信心。Perlmutter表示:“某种意义上来说工作量变大了,但是它让你对数据分析过程感到更加确信。”他把数据盲分析叫做“智力上的洁癖,就像洗手一样。”


Perlmutter还说道,数据盲分析对于年轻的科学家来说更有吸引力——不仅仅是因为盲数据能吊人胃口。他举了个研究生的例子。Perlmutter说,这个研究生花了两年时间盲分析了几对超新星爆炸的数据。在一次组会后她展示了分析过程,表示希望查看结果,并就此征求所有人的意见。


Perlmutter说“当时是晚上 6 点该吃晚饭的时候”,在场的人说:“如果结果不好,那么今晚就完了,她也必须好好思考该怎么继续她的博士研究。或许我们应该等到早上再说。”


“我们互相望了望,然后我说:‘不要啦,我们还是揭晓答案吧!’所以我们揭晓了答案,结果看起来不错,我们击掌相庆。”

Nature|doi:10.1038/5526182a

点击“阅读原文”阅读英文原文


热门文章

点击图片阅读:P值争议新一季:我们是否需要一个统一的P值阈值?

点击图片阅读:每5天就发表一篇论文的科学家们

点击图片阅读:觉得学术不端离自己很远?小心这9个坑!



版权声明:

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考,一切内容以英文原版为准。欢迎转发至朋友圈,如需转载,请邮件Chinapress@nature.com。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。


© 2018 Springer Nature Limited. All Rights Reserved

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存