再做一次做不出:100项心理学超过六成不可再现
导读: 本文作者:诶斯达当你在果壳上读到一项有趣的心理学研究,你会不会想:“这个研究再做一次,能得到相同的结果吗?”如果这个念头闪过你的脑海,恭喜你!你和许多科学家思忖着相同的问题——科研结果的可再现性(repro…
本文作者:诶斯达
当你在果壳上读到一项有趣的心理学研究,你会不会想:“这个研究再做一次,能得到相同的结果吗?”
如果这个念头闪过你的脑海,恭喜你!你和许多科学家思忖着相同的问题——科研结果的可再现性(reproducibility)。可再现性是科学的核心特征。它意味着,当我们分析某个研究产生的数据,或是用与原研究同样的方法收集新数据时,这些数据能通向与原研究相同的结果。
然而,“尽管可再现性如此重要,我们对科学研究总体上的可再现性如何却知之甚少。”弗吉尼亚大学心理学教授布莱恩·诺赛克(Brian Nosek)说,“越来越多人担心科研的可再现性会比期待中或理想状况更低。”
早在十年前,斯坦福大学医学院的约翰·尤安尼迪斯(John Ioannidis)教授就发表了一篇名为《为何大部分已发表的研究发现都不真实》(Why Most Published Research Findings Are False)的报告。他估测,按当前期刊出版和数据分析的趋势,很有可能导致一半以上的科学研究与事实不符,进而难以被再现。
尤安尼迪斯不是一个人在战斗——十年后,在诺赛克参与创建的“科学中心”(Center for Open Science),一群研究者试图大规模探索发表在主流心理学期刊上的结果的可再现性。
在这个名为“可再现性项目:心理学篇”(Reproducibility Project: Psychology)的大课题中,来自五大洲的超过270位研究者试图再现在3份心理学期刊上发表的100项研究发现。研究结果
发表在最新一期的《科学》(Science)上。
在2008年发表在各本《心理科学》《人格与社会心理学》及《实验心理学:学习、记忆与认知》上的488篇论文中,可再现性项目研究组选择了111项适合重复的研究进行验证,最终有100项重复工作及时完成,被汇总到论文中。
研究者定出了衡量可再现性的五条标准,而根据这些标准判断,能再现的研究不足一半。
对比原研究(Original Studies)和再现研究(Replications) 中的P值(P values,图A)和效应量(Effect Sizes,图B)的密度图。图片来源:研究论文
100项原研究中,97%的研究得出了显著的效应——获得了小于或等于0.05的P值。然而,再现研究中仅有36%得出了同等的效应。此外,与原研究的结果相比,再现实验所得出的效应量出现了明显减小。83%的再现效应都小于原研究估计的效应。
作为迄今为止最大规模的再现项目之一,这一研究在心理学界至于整个科学界都引起了关注。这看上去并不乐观的结果说明了什么?
谈到这篇论文时,《科学》的主编玛西娅·麦克纳特(Marcia McNutt)博士表示这样的项目能帮助学界更好地理解怎样的研究更可能被再现。“例如,这项研究的一个重要结论在于,如果原研究的结果越显著,这些结果就越可能能被再现。”她说,“这告诉论文作者和期刊编辑,他们对待那些处于边缘显著状态的结果要尤为谨慎,因为这意味着它们没那么可能被重现。”
“需要强调的是,这一多少有些令人失望的结果并不直接对原理论的正误盖棺,这一点非常重要。”《科学》的高级编辑吉尔伯特·钦(Gilbert Chin)博士强调,“研究结果表明的是,我们不应该过分确信支持某种的原始实验数据。”
诺塞克指出,有三个原因可能解释一些原研究的结果为什么无法被再现。“其一是原研究所得的效应是假阳性结果,这个效应本就不真实,被观测到纯属偶然。其二则可能是我们的再现研究得到了假阴性结果,而没有捕捉到真实的效应。”诺塞克说,“又或者,原研究和再现研究的估测都是准确的,可两者的研究方法在关键部分有了差别。”简而言之,无法再现原研究发现并不意味着原研究是错误的。同理,即便结果被成功再现,也不能证明原研究的假设肯定是正确的。
好烦好含糊,能不能给出一个?
现在还不能。
人们总渴望“说一是一说二是二”,科学家也不例外。但科学的特性决定了这不现实。“我们也很希望从每个研究每个项目每篇报告中获得确定无疑的答案,但科学提供的并不是确定性,至少不能马上提供。”诺塞克解释说,“科学是一个不断减少不确定性的过程。”
每年,科学界进行的各种研究超过150万个,这个数目还在不断增加。“每个研究都有一定的,为形成某个结论提供了些许信息。但真正的结论,让你能确信某个东西是正确还是错误的那个结论,依赖于许多研究的积累。”诺塞克告诉我们,“所以,一般读者应该从中学会的关键点在于,没有任何一个研究能给出最终。”
维克森林大学的助理教授E·J·玛思坎普(E.J.Masicampo)也许能很好地理解这种关系。他在可再现性项目中有两层身份:既负责重复同行的一项研究,他自己发表的研究也是那100项研究之一,被其他同行重复。
据玛思坎普介绍,在设计研究时,再现队伍首先与原作者取得联系,以再现研究忠于原研究。在收集数据前,原作者和第三方审查者会对研究设计再进行评价。“我和同事所重复的那个研究,我每个学期都会向本科生讲授。”他表示,这个项目为重复那些吸引他很久的研究提供了好玩的机会,他也相信自己的研究在透明与合作的框架下得到了质量极高的处理。“这个项目的一大裨益在于为如何大规模地进行高质量的重复实验提供了一个范本。”玛思坎普说。
跟不断被发表的众多心理学结果相比,这100个再现研究就像一桶水里的区区一滴。但有了这样的尝试,研究者希望,这个项目能作为探索科研可再现性的第一步,激发更多的研究去关注心理学乃至其他科学领域研究的可再现性问题,同时也促进研究结果的发表标准进一步提高。
用吉尔伯特·钦的话说,科学不总是一条笔直的航线——我们并不能一帆风顺地从理论港途经实验湾,驶到理解站。我们必须不断质疑、不断评估理论和实验,才可能向真正理解不断迫近。
(编辑:Calo)
“诺塞克指出,有三个原因可能解释一些原研究的结果为什么无法被再现。“其一是原研究所得的效应是假阳性结果,这个效应本就不真实,被观测到纯属偶然。其二则可能是我们的再现研究得到了假阴性结果,而没有捕捉到真实的效应。”诺塞克说,“又或者,原研究和再现研究的估测都是准确的,可两者的研究方法在关键部分有了差别。”简而言之,无法再现原研究发现并不意味着原研究是错误的。同理,即便结果被成功再现,也不能证明原研究的假设肯定是正确的。”
顶[]评论
这门课程将研究所遵从的科学原理,并讨论方和统计学是如何帮助我们研究的可靠性的。我们将解释基本的要素,并结合实际情况来向你展示如果方和统计学,会有多么糟糕的错误等着我们。我们还将你如何在已发表的期刊文献中(虽然有些事后诸葛亮)辨识出那些可疑的研究。
引用@梧桐清声的话:我觉得还好了,比较一物学和医学论文:国际著名期刊《Nature》在2012年3月份刊发了一份由C. Glenn Begley和Lee M. Ellis撰写的评论,在文章中,他们提及Amgen公司对...
心理学有他的特殊性。他并不是象生理学的可现性。有它的特殊性,各个流派的偏重点也不同。比如一位讲社会心理学的教授,说佛洛依德主义,结论主观,。但是也没有否定他在心理疏导实践的作用。我们现在引入生理学的一些研究方法,但是他毕竟是两种学科。就像中医有中医的方法,西医有西医的方法。又有结合的方法。
顶[]评论
我有个猜想:
会不会是因为心理学本身是一门实验结果波动性很大的学科,而心理学期刊对论文的筛选使得只有那些由于假阳性而获得了显著结果的实验论文才能刊登。
比如,有10个小组进行了同样的实验,1个观测到了显著的现象,9个没有。获得显著现象的小组认为实验很成功投给了期刊,另外9个小组自知论文没有什么亮点所以投了一般的期刊。而这样一来,期刊就成了假阳性的实验论文聚集地了。
顶[]评论
推荐:
来源:
免责声明:凡本网转载自其他媒体的作品,目的在于传递更多信息,如因作品内容、版权或其他问题引起的纠纷,请及时与我们联系,将在24小时内作更正、删除等相关处理。