查看原文
其他

“大科学”时代:同行评议新范式

日话题:同行评议新范式,你怎么看?


【2018年11月,教育部办公厅印发《关于开展清理“唯论文、唯帽子、唯职称、唯学历、唯奖项”专项行动的通知》,决定在各有关高校开展“唯论文、唯帽子、唯职称、唯学历、唯奖项”清理。本文主要讨论涉及“唯帽子”外的四唯。】


摘要:本文旨在探讨同行评议新范式,以推动打开破“四唯”新局面。运用矛盾分析、历史分析、数学建模、介尺度分析等方法,探讨同行评议的新历史、新理念、新理论和新模型,提出其新历史可追溯到“物勒工名”,新理念是从权责“均衡”转变为各方“均势”,新理论包括知识生产的个人创新周期和国家创新体系,新模型是以知识生产效率为贯通因素的系统模型。本文认为,破“四唯”与变革同行评议范式是一体两面,根本矛盾是监管体制机制不能匹配日益提高的知识质量,要总体把握国内国外两个大局,用新范式系统变革同行评议,服务国家和社会发展。



01

引言


科技评价一直受党和国家关注,相关政策和学术研究不曾间断[1]。近年来,诸如“没发论文就不能评教授、评主治医师”“有论文就能聘上岗位或晋升”等现象备受诟病,“唯论文、唯职称、唯学历、唯奖项”(即“四唯”)的片面、机械做法极大地伤害了广大科技工作者的积极性[2-3]。有学者指出,“四唯”问题的最大弊端,实际上是用论文一种科研产出模式,替代了其他领域的产出模式,造成全行业写论文的局面,导致科技产出不能最大程度服务社会经济发展[6],没有“把论文写在祖国大地上”。


02

文献综述


“四唯”问题违背了辩证法,是以偏概全、机械、僵化地看人办事情,具体表现为“以刊评文、以文评人”“以项评奖、以奖评人”等现象,学界围绕“四唯”问题开展了部分研究。

一是现实性

过去30多年,学界陷入“文章至上、数量即水平”的虚假繁荣之中[4],对于管理者而言,“看论文”的操作简便易行而且成效显著;对于科研人员而言,这种“一刀切”的做法虽然粗暴武断,但它是简单而公开的模式,一旦掌握规则,就有机会胜出[6]。同时,破“四唯”面临两难:


一方面是动力不足。科技评价改革没有明确的受益方,反而存在明确的利益受损方[7];


另一方面是遵守这套规则而胜出的人为数众多,其中不少人已在学术界身居高位,破“四唯”阻力较大[3]。

二是合理性

“四唯”是一种“认知惯性”。人们常常具有用“已然”判断“未然”的思维惯性,这一惯性之于评价,就是认为“评价结果能为资源分配提供基本依据”[4]。破“四唯”是要纠正该主客不符的错误观念和扭曲的制度体系[8]。破“四唯”的矛头直指同行评议制度。


同行评议生于“小科学”时代,最初是“学术守门人”角色,具备科学性、民主性、开放性,并不支持“以刊评文”“以文评人”。在“大科学”时代,同行评议被一些学术“小圈子”用于垄断科研经费、排挤冷门选题,造成学术不公问题,被中外学者诟病[9-13]。


关于如何破除“四唯”,各界人士提出了中肯的建议:

一是问题导向,鼓励原创

(1)鼓励原始创新,强调对科学问题和技术问题的洞察与理解,破除为争夺科技资源而通过科技成果提升排名占位的观念。


(2)突出问题导向,引导科研活动直接服务国家科技战略、服务创新人才培养、服务我国经济社会发展。

二是明确主体,强化责任

(1)“四唯”是政府科技政策“指挥棒”出了问题,所以主体责任在于政策制定部门[13]。


(2)以科技评价专家、高校教师为主体的科技评价学术共同体应承担起破“四唯”的主体责任[4]。


(3)在破“四唯”上不能强求“齐步走”[14-15],处于“金字塔”顶端的科研单位(如中国科学院、一流高校等)或科研活动应成为科技评价改革的“领头角马”[16]。

三是制度改革,工具改良

(1)理论调整。从分类评价理论、质量重于数量理论、负责任评价理论和国际评估理论等方面丰富发展现有评价方法[16]。


(2)制度调整。有人建议国家自然科学基金人才项目不应为获得支持的项目负责人贴上“永久”杰出或优秀的标签,而应定位于支持基础研究优秀人才快速成长,助其更上一个台阶[17]。


(3)工具调整。例如,把“四唯”内容退回到产出原创性成果的基础研究维度,考虑用定性评价替代量化评价[15,18];对应用研究与试验发展研究采用新的评价标准[5]。

四是实践探索,个案尝试

一些破“四唯”的改革实践者积累了宝贵的具体经验和案例参考,然而,这些宝贵案例大都只限于某个单位、某类或某次评价活动,特殊性较强[19-20]。


03

同行评议问题剖析


3.1

同行评议的本质:权威监管、同级认可


同行评议与“四唯”问题密不可分——被广泛应用于论文评审、学位与职称评定、项目评估、机构运作评议等各类评价活动。同行评议的应用场合虽多,但本质是相同的[9],可以从历史和逻辑两个角度揭示。

关于同行评议的起源,目前国内外有四种说法,主流观点有三种,可简述为:一说起源于1416年威尼斯共和国采用同行评议进行专利授权,用于吸引人才、发展经济;一说起源于1665年英国皇家学会采用同行评议审核论文,用于学术讨论、承认观点;一说起源于1937年美国科研及科研管理机构采用同行评议进行资金分配,用于国家资助创新。
同时,也有国外学者支持第四种观点——起源于9世纪末叙利亚的地区性医疗委员会对自由流动医生的诊断报告进行复核的制度,用于确保行医符合行业道德规范[9,21-24]。显然,同行评议的出现是不同时代地域的人类文明在处理同类问题时采取的相似理性行为,公元前7世纪中国的“物勒工名”制度其实就是同行评议的雏形(图1)。对同行评议的历史挖掘,有利于追思制度设计“初心”,事关范式变革,本文在4.1部分将详细论述。



关于同行评议的定义,国内外文献较多,大多是描述性定义。然而,同行评议英文单词peer review的含义在该制度诞生之时并非现在的定义。Peer意为“对等地位”,也包含“贵族”之意,这符合17世纪英国皇室、贵族授予发明人垄断特权的历史本意,也强调了授权人员对掌握专门知识的地位及权威,这不同于现在强调的“同行”;而review不仅是“评价、审核”,还是“回顾、监督”,以及“任命、授予某种地位”之意。可见,对peer review的译法,“同行评议、专家互查”等只包含了该制度的现代意思,而遗漏了其历史渊源的深层含义——地位对等者的认可和监督,以及权威人士的授权;如果按peer review的原本含义,则中文对应翻译可以是“权威监管、同级认可”,其内涵是“官方引导、学界自治”。辨析定义是因为破“四唯”不能仅停留在对同行评议、科学计量、期刊分级等评价制度工具和方式方法层面的反复修补,而要达到范式变革。
综上所述,通过追溯同行评议历史本源和真实含义,可以看出,同行评议是科技与社会相互作用的产物,在国内,它是行政、学术、企业等不同利益集团表达和交换意愿的妥协机制;在国际,它是吸引人才、实现经贸盈利和国家安全等目标的竞合制度。


3.2

同行评议的矛盾:从“质量守门人”

到“潜力投资方”


本文认为,同行评议的根本特征是“权威监管、同级认可”,内含诸多矛盾,其主要矛盾是:监管体制机制不能匹配日益提高的知识质量,可分为事实鉴定和价值判断两个方面:

质量守门人(侧重事实鉴定)

对于创新难题尚能被个体或小群体突破的那些知识生产,创新成本和收益归于个人或小群体所有,国家或行业组织的评价工作以奖励既成、监管过往、保障质量为主;

潜力投资方(侧重价值判断)

对于创新难度较大、个人或小群体负担不起创新成本和风险的那些知识生产,创新就需要被全社会、全人类共担,评价工作就以激励探索、认可潜力、风险投资为主。


3.3

同行评议的结构:

专家遴选+指标比对+问答互动


同行评议具有稳定的结构和要素[2,25],具备评价工作的一般特征,主要包括3个模块:专家遴选、指标比对、问答互动。同行评议不同于其他评价方式(科学计量、委员会投票、投标评审、思辨、独断等)的地方在于,其评价的标准或指标由掌握专门知识的少数个体或小群体公开或不公开地设定,且评议的结论或建议得到多人的专门知识和理性经验交叉互证。因此,专家遴选和问答互动是同行评议最具特色的两个环节,它们与指标比对一起,构成了同行评议的基本模块(图2),三者缺一则失去同行评议的意义。



回顾同行评议研究,对3个模块中的某一个或两个研究较多,而整体、系统地研究3个模块的偏少;专家遴选和指标比对的研究较多,问答互动探讨得较少。


(1)关于同行评议的整体性研究

主要有评价主体立场、信任传递机制、基础设施,以及机器辅助评价等4个视角:


第一,从横跨评价各环节的角度研究同行评议,主要考察贯穿评价活动始终的评价主体立场和主体价值观,但对这种重要的贯穿式因素研究得较少[25]。


第二,从纵贯评价工作涉及群体的角度研究同行评议,认为现代学术评价系统是一个靠信任维持的系统,信任传递是其最重要的运行机制,该机制的基础正是同行评议;而引文计量、期刊分级等多属于外生指标,其价值在于能多大程度上拟合同行评议意见[26]。


第三,对同行评议基础设施的研究,例如,ICT(信息通讯技术)工具,比如NVivo、反抄袭软件、EndNote、Web of Science、Origin等看似是写论文的工具,实则渗透着学术同行认可要素,是同行评议范式的物化、前置化和重要基础设施[27];


第四,关注机器辅助评价系统的研究,力求囊括同行评议各部分各要素,从知识元的本体到卷积神经网络模型,再到规则库和语料库、精准预测等,努力实现“机器专家”的自动评价,以代替一部分人工评议工作[28-30]。

(2)关于专家遴选

精准对接专家存在一定难度,有调查显示70.6%的评审专家表示被评对象不在自己专业范围内[31],为规范评价质量和更好地遴选专家,现有研究主要有反评价(重结果)、学者画像和专家库构建(重人)、遴选算法设计(重流程)以及其他4条途径:


第一,对同行专家的评价水平进行监督和评价,即反评价或称元评估,设计反评价模型指标体系[32-34]。


第二,为精准推荐专家,有学者研究构建学者画像、量化评审专家在同行评议中学术贡献的方法[35-37];还有学者通过语义关联建立专家研究兴趣与学科的多粒度匹配、研判专家学术范式等方法,构建体现不同学科专家评议尺度差异的同行评议专家信息库[38-43]。


第三,建立专家信誉度度量、分配的数学模型,算法包括蚂蚁算法[43]、PageRank算法[44]、正反馈机制遗传算法[45]、VSM和余弦相似度等[46]。


第四,还有学者研究了自设代码来指导专家分组和遴选[47]。

(3)关于指标比对

围绕评价效度、信度,学者们探讨指标比对的流程组织、比对正当性、指标依据以及指标赋权等4个方面:


第一,比对的流程组织方面,有学者比较了德国、法国、美国的同行评议组织模式,指出研判知识质量是同行评议的核心,认为同行评议存在事前防范多于事后监督、内部控制强于外部保障的问题,指出对同行评价公正性的实际情况缺乏全面了解,建议建立宽容失败但过程跟踪的监督机制、研究进展报告制度、逐级递进制度(第一轮评价只涉及及格与否,第二轮评价才得出最终名次)、RCC机制等[41,48-52]。


第二,比对的正当性方面,同行评议只能限于科学证据本身,可以应用证据理论中的信度描述评价中的不确定和不完全信息,有学者重视研究如何确定专家权重、量化专家评价意见、提高评价可靠性等方法[53-57]。


第三,指标依据方面,既要研究各评价组织方的评价目标、现实需求和评价方自身定位(如“三定方案”),也要关注专家评审过程中指标取舍的动态博弈[58-59]。


第四,指标赋权方面,曾经以综合评价模型的研究为主,包括德尔菲法、加权求和法、模糊综合法、TOPSIS法、层次分析法等,后来逐步研究探讨工具变量法、广义矩估计、Granger非因果检验等方法[60-63],近年还有一些较新的探索,如指标完整性研究、基于神经网络模型的专家评分权威度和可信度处理方法等[41]。

(4)关于问答互动

该环节的研究相对较少,目前的研究主要针对公开性、互动性、独立性,以及人性化等4个问题:


第一,公开性,开放式同行评议不是主流形式,且大多数期刊的同行评议只是公布评审意见和评审结果,只有少数期刊(23%)增加公众参与审稿的环节[64-65]。


第二,互动性,有学者探讨了对评价方权力的限制和约束,提出设计“交流答辩”环节[66]、专家评价一致性及检验方法[67]、申诉机制[68]、通过区块链代币来激励被评方与评价方互动交流等[69]。


第三,独立性,有学者探讨“作者自评+同行评议+第三方学术评价机构”的代表作评价方法[70]、海外评审制度体系设计、评审制度国际化等[63]。


第四,人性化,有学者强调要恰当处置那些介于评上和评不上之间的被评对象,对那些因评价等级、数额的限制而被割舍的优秀人才和优秀项目多些考虑,妥善处理[41]。


综上所述,目前同行评议工作各环节各自为政、全局面主体责任缺失的状态,是“四唯”问题以偏概全错误的一种折射。


04

构建同行评议新范式:

新历史、新理念、新理论、新模型


4.1

新历史:同行评议可以追溯到春秋战国时期的“物勒工名”制度


改进同行评议、推动其范式变革既是解决“四唯”问题的现实需要,也是同行评议自身理论不断完善、与时俱进的时代要求[71-75]。现实问题与历史演变密不可分,考察该制度的历史有助于发现其范式变迁的依据和规律,找到变革的突破口。

  • 首先,现有的四种起源说形式差异较大,却都称为同行评议,需取其共同内容来认定其本质——用某类知识对该类人才事物进行审查和监管,即“质量守门人”角色。这给寻找“样貌”不同但实质相同的同行评议历史源头提供了逻辑基础;


  • 其次,现有起源说跨越多个地域(中东、东欧、西欧和北美)和文明,具有启发性——古时地理位置相距较远的文明在彼此相对独立发展的同时,不约而同地出现相同或类似的制度,这是经济基础决定上层建筑的唯物史规律使然,不以文明或种族的变化而转移,所以考察其他地域和文明的同行评议历史是唯物史观的必然要求;


  • 第三,现有四种起源说的跨越年代较大、断代较为严重,深入考察同行评议制度流变细节、探讨其多时点形态和背景,极具历史学研究价值;


  • 最后,该制度在诞生之初和每次变换“样貌”之时显然具有比较充分的合理性,深入挖掘历史渊源并反思其合理形态,有助于分析今天制度的问题,具有现实意义和实践价值。


综合前方论述,公元前7世纪中国的“物勒工名”制度很可能是同行评议的更早起源。《礼记·月令》《吕氏春秋》《周礼·考工记》《唐律疏议》等文献均提到了“物勒工名”制度:“物勒工名,以考其诚,功有不当,必行其罪”。它是指春秋时期开始出现的,齐、晋、秦、楚等国施行的一套器物质检制度,即器物的制造者要把自己的名字刻在器物上面,以方便管理者检验产品质量[76]。该制度言简意赅地强调了质量监管的方式“勒名”、监管的目的“考(工)诚”、监管标准是考察是否“功有不当”,以及惩罚环节“必行其罪”。该制度是人类社会早期手工业生产管理模式的具体反映,对提高手工业产品质量有重要意义[76]。“物勒工名”符合不同“样貌”同行评议的实质共性,是古代的“质量守门人”制度,它正是同行评议的早期形态。如果同行评议只强调专业审查,那“物勒工名”的确没有特别强调对器物审核的人员、过程、复查等环节用到哪些专业知识,但器皿和用具的生产制作必然包含一定专业知识,审核者必定要运用这些知识才能审核。古代,士农工商中的工,就是“匠人共同体”,但那时的技艺知识门槛并不特别高,评审过程可能只是官员带着老匠人,检验器皿用具质量,不需要召开正式、复杂的评审会。所以,“物勒工名”虽未提及同行、评审,但其监管过程必定是伴随专业审核的。基于这一历史反思,辨析同行评议矛盾的两个方面——“质量守门人”和“潜力投资方”,可认为当今同行评议主要矛盾是后者,而历史上不论是对手工物品的质检,还是对医疗工作、新技术、新论文的质量把关,其矛盾主要在前者,这是理解今天同行评议问题的一个历史视角。



4.2

新理念:从“均衡”到“均摊”再到“均势”


新历史观是新范式的客观基础,为新理念的树立提供了历史依据。

(1)“物勒工名”制度

该制度是成体系的制度设计,该制度的理念是制造产品要“取其用,不取其数”,保证产品“坚好便用”[71-72],“考诚”“行罪”包含了今天的质量检查和诚信监管等多项内容;“勒名”是责任落到个人,与“功当”构成相互均衡的权责系统。可见,同行评议的“初心”正是让质量与诚信挂钩、责任与赏罚对等,体现了“质量守门人”背后的制度设计理念——是用制度确保知识和利益对等、均衡地流动。

(2)同行评议制度

该制度的重点经历了从“均衡”到“均摊”的流变。


从内容上看,该制度从初时的权责均衡为主,变为今天的风险均摊为主。前者的主要内容是依靠质量体系的事实鉴定,侧重知识生产的偶然性,后者的主要内容是依靠信任体系的价值判定,侧重知识生产的竞争性。


从形式上看,该制度是从官方对质量的监管为主,转为学术共同体对潜力的认可为主。评价的“样貌”不再仅仅是确保质量和诚信对等、责任与赏罚均衡,而是要分散创新风险、包容局部失败。


进一步说,同行评议之所以要经历这种范式流变,是因为原本的评价理念,植根于同行专家趋同的思想和范式[73],这种“趋同”“均衡”的理念并不利于评价创新的思想和范式,特别是在评价可能的革命性创新时,“均衡”理念失效,必须要接纳突变、鼓励冒险[2,74]。想当年,爱因斯坦1905年的5篇革命性论文仅在主编普朗克认可后便在《物理年鉴(Annalender Physik)》上发表,同行评议反而有拖后腿的作用[21]。因此,变革同行评议范式,虽仍保留“质量守门人”角色,但更多是要体现出“潜力投资方”的理念,历史已经做出了这样的转变。本文认为,这一转变是一种进步,因为大多数知识生产的权责已不是个体,而是人类命运共同体;知识生产难度加剧及其导致的监管难度加剧都要求评价工作要将权责的均衡性构建在更长的周期、更多的方面、更大的尺度上,要求社会上更多人参与、支持并均摊创新的风险,进而让更多人共享创新利益。因此,本文认为,对失败更加包容、对创新更多激励的理念,正是同行评议制度从“均衡”流变为“均摊”的重要内因。

(3)制度漏洞

诚然,同行评议流变过程中出现了一些制度漏洞。如,承担创新风险的人和共享创新利益的人常常不是同一群人,“搭便车”“蹭大锅饭”的人有之,浑水摸鱼、登高去梯的人有之,搞庞氏骗局、利益绑架、最终“大而难倒”的人有之,这些问题加上学术界僧多粥少、竞争内耗的客观事实,以及评价各方往往盯着局部利益,没能从长周期、全方面、大尺度的总体角度贯彻风险均摊与利益共享理念的主观因素,共同导致同行评议容易成为被利用的工具,继而成为众矢之的。比如,某一评价方授予被评人学术荣誉称号、研究资助,但在未来成果验收、功过赏罚方面则往往由另一利益交织方来负责,最后监管宽松软。时至今日,“四唯”待破未立,很大程度上就是因为同行评议系统的割裂状态:


——微观上:

同行评议被切割成若干模块、涉及不同利益部门和彼此竞争的行业、学科,继而各自为政,评价缺少大局观、各部分的理性最优选择,反而导致系统的非理性行为和非最优结果。


——宏观上:

国内方面,管理者在验收环节的责权不当、科研人员在诚信方面的奖惩不当,都会割裂监管责任,与包容失败的同行评议制度设计初衷南辕北辙;


国际方面,位于知识生产“上游”(尤其是发达国家)的学界、政界、商界人士借助评论文、评期刊巩固知识监管话语权,借助评奖、评项目树立自己的专家模范和研究范式,借助ICT、机器辅助评价等工具将自己的价值观渗透到知识生产“中下游”的各环节并牢牢控制知识流动方向,很可能导致顺之者文章发表,逆之者禁言失语。如,杨振宁先生回国后于2009年将一篇论文投向国外期刊,结果被两位同行以并不合理的理由拒绝发表[75]。这类现实问题都会割裂同行间信任、降低同行评议公信力、形成新的创新壁垒、巩固非学术偏见,如此,便完全颠覆了同行评议制度激励创新的流变缘由。


因此,本文认为,改进同行评议的关键是从“均摊”向“均势”的理念转变。“均摊”造成分裂,而回归系统性和整体性,需要从官方到学术共同体构建势力相当的、多国别多学科的均衡态势,让知识生产、创新竞争、评价监管等处于多头并进、相互制衡的态势,如此,同行评议才能促进同行放下成见、官家取消壁垒,进而实现高质量知识生产和传播。


4.3

新理论:设立“常平仓”,取消“中间商”


新理念是新范式的主观基础,为新理论的构建提供了依据。


4.3.1  知识生产的个人创新周期


科技创新产出的成果与科研人员的年龄有一定关系,从统计意义上看,大致呈现一种威布尔分布(Weibull Distribution)[76-78]。该分布态势反映的是个人知识生产的客观规律,不因学科、时代、地域等因素的不同而有质的变化(这些因素只是对分布的幅度、跨度、峰值点等有影响),可以被广泛用于各类涉及人和成果的评价,但当前同行评议却较少考虑该理论,本文将该理论引入到同行评议并进一步阐释。从整体上看,个人的科创产出存在顶峰时期,而且随着科技发展愈加繁复,产出的顶峰时期有后移现象——该后移现象也已在后续相关研究中得到证明[79-81]。本文将“成果-年龄”分布及其基础上的产出效率,与I~VII个评价环节建立联系,制作示意图(图3)。从理论上看,25〜65岁是成果最丰富的阶段,也是评价的稠密阶段,恰好对应着“四唯”评价。



从个人知识生产的长周期视角出发,贯彻“均势”理念,同行评议要充分尊重个人能力成长的客观规律。可以借鉴“常平仓”方式,“不违农时”“平抑物价”,把握好评价的两个角色。具体地,在区分学科的前提下:

25〜45岁效率先降后升

一般是突破创新困难的重要时期。此时,评价工作要倡导分摊风险,鼓励冒险、包容失败,通过长聘性岗位、稳定的高工资等政策机制稳住人心。多作鼓励和引导,避免行政干预,推动个人效率尽快达到峰值,但不是产出数量越多越好。

45〜65岁效率逐渐下降

一般是创新完成和日臻完善时期。此时,评价工作要侧重权责均衡,强调质量把关,以荣誉性奖励为主;要监督学术垄断现象,避免资源过度集中。


4.3.2  知识生产的国家创新体系

在当今“大科学”时代,国家已经成为更有力的科创主体,国家科技知识生产由政府、学校、科研院所、企业、中介(包括团体、媒体、具有特定目的或特征的群体等)不同行为主体协同完成,其中,政府部门及其附属机构处于核心地位,与其他各主体形成了“串联”“并联”等不同模式的国家创新体系[82]。依靠各个行为主体的相互作用,实现知识的生产加工、渗透流通、变异再生产。提高知识流动效率是国家创新体系的目标,而评价是知识流动的阀门。实践中,涉及同行评议的国家部门包括教育部、科技部等数十个部门和成百上千个附属高校、科研机构、事业单位,这些部门机构单位有不同的任务目标,各主体在考核体系下赢得资源博弈、保证自身在体系内的生存[83]。政绩观不同,监管评价和知识创新则会产生不协调、不匹配的现象。


从国家知识生产的全方面视角出发,贯彻“均势”理念,就是要取消评价的“中间商”:

公开化

为了解决评价的多主体问题,有人提出独立第三方评价,有人提出将评价的关键环节公开[84-85]。人情社会下,公开性至关重要。强化评价的目的公开、过程公开、结果公开,抓结果正义的同时更抓程序正义。这样意味着处于国家创新体系核心位置的政府部门机构单位,应该将同行评议置于立法、司法、监察、舆论等多方面的监督之下,不仅仅是学术共同体认可和政府监管,而是要“天下人”盯着,如此才能保障人民群众对科技创新的知情权、参与权、表达权、监督权。公开性的要义就是全流程各环节信息获取能力平等,达到均势。

扁平化

形成只有中央政府和学术个人的两极扁平化结构,最大程度信赖学术自治,动员创新积极性和自主性,最大化知识流动效率,构建庞大的学术信誉系统。在此基础上,逐渐减少各级政府的各个部门机构单位对具体评价操作的干预,但保留监督奖惩职能;恢复学者之间点对点通信式的交流和互评方式,让同行评议结果在学术界实时公开,并实时上报给国家最高决策层。扁平化的要义就是评价方和被评方发声能力平等,达到均势。


4.4

新模型:基于介尺度的同行评议贯通式

系统模型


让被割裂的同行评议各模块重新贯通起来,需要跨学科、跨部门、跨尺度的思路和框架。为此,本文引入介尺度分析框架。介尺度分析框架是将复杂系统分成不同层次、并将不同层次(子系统)的单元与子系统之间的介尺度结构进行分析的一套思维框架。同行评议是典型的多层次复杂系统,其中的介尺度结构尚无人详细剖析[86-88]。现有研究已形成了贯穿同行评议各环节的理论模型和数学工具,本文采用介尺度分析框架,将现有模型穿针引线、整合创新,初步提出新的同行评议贯通式系统模型(图4)。贯穿该模型的变量就是知识生产效率,可由“成果-年龄”模型计算出。



05

讨论


5.1

出台有针对性的法律和标准


破“四唯”、变革同行评议范式,需要顶层设计。通过国家立法、行业设立标准、社团签订协定等顶层长效机制,动员每一所高校、科研机构和科技团体采取切实行动,进而形成广泛共识,上升到法律规范。
同时,我国同行评议也需要符合中国科技发展的实际情况。每一位科技工作者、科研管理者、政策制定者和监督者都要共同努力,建立健全公开的、可及时调整的、适合各个学科自身发展的同行评议流程和标准,来破解国际上不友善的同行评议对我国科技创新的围堵,从而缓解和消除国内科技界恶性竞争。


5.2

对同行评议的首尾模块进行改进


目前对专家遴选的探讨较多,核心是“内行-人情”的矛盾(悖论):既要避免熟人作评委时有私心,又要避免评委对被评对象不熟悉,评价失效。该悖论的本质是科学分配资源的全局合理性无法兼顾内行间利益交织的局部分配合理性,全局最优(避免内行)与局部最优(需要内行)二者常常较难调和。与其困囿专家遴选,不如关注评审意见本身。因此,需整体地、全盘地考察评价工作,倡导贯穿研究同行评议,尤其是对问答互动模块进行改进:

(1)多做、常做、长期地做反评估,在多轮全信息博弈下提升专家道德水准,化解熟人问题,进而充分信赖专家,让内行来评内行(学科需下沉到三级以下,一般才能找到内行);

(2)随机选择外行(管理者、大同行等)参与资源分配的均衡性、公平性讨论,以学科或领域为单元对资源的全局分配作合理论证,开展辩论并公开全过程,同时增加评审专家薪酬,按小时计费;

(3)专家的责任性和评语公开工作需要加强,评审专家要为经济社会发展负责,为被评者、期刊、资助机构的名誉负责,分散的专家意见需要经专人审核、统合成一致性结论,每位专家的意见都留痕管理,计贡献,可追溯。这方面可以借鉴专利申请、复审、侵权审判的制度设计,引入举证、质证、辩论、法官总结陈词等环节[89-90],并加大评审和辩论的监督力度;

(4)对创新点突出、争议较多的被评对象,采用选优式的投票方法,即先择优选出每位评审者认为优势明显的项目,再自上而下排序;而对风险性小的、争议较少的被评对象,采用排除式的投票方法,即先排除不具竞争力的项目,剩余的为所选结果;

(5)吸纳管理人员、社会人士等作为更大范围的评价方,但投票权重应低于小同行;或者设计多级评审,例如,先小同行进行第一轮评审,再扩大评审者范围进行第二轮评审,两次结果按权重加成,去掉最高分和最低分,再取最终结果。权重设计、人数设计需要分学科、分领域来试验测算,得出信度、效度最大的权重和人数区间。


06

结语


本文从破“四唯”背景分析入手,锁定改进同行评议为解决问题的关键,回顾了专家遴选、指标比对、问答互动三个主要环节的研究现状和问题,提出构建同行评议新范式的框架和思路,即新历史、新理念、新理论和新模型,力争从整体性和系统性重构同行评议制度,突出其国内国际两大局面的制度设计目标,努力为破“四唯”立起新旗帜,打开新局面,“把论文写在祖国大地上”。


致谢:本文在写作过程中咨询过多位专家老师,得到了许多宝贵的指点和质疑,在此谨表示衷心的感谢。他们是(按咨询的先后顺序排序):龚旭、罗晖、李正风、蒋国华、游光荣、李真真、赵志耘、史永超、李响、郭嘉、杨志华、董超、吴峙佑、田兰开、谭晓龙、李哲、张则瑾、董阳、张鹏、方自平、高常安、玄洪云、牟亚天、王忠、刘耀、陈韶光。



参考文献

[1]游光荣.建立健全我国科技评价机制势在必行[J].社会科学管理与评论,2002(1):5.

[2]李政,罗晖,李正风,等.基于突变理论的科技评价方法初探简[J].科研管理,2017(S1):193-200.

[3]刘益东.破"四唯"要克服三大障碍[N].社会科学报,2018-11-29(004).

[4]侯剑华,张洋.高校破四唯首先要破思维[N].中国社会科学报,2021-07-20(008).

[5]靳晓燕,陈鹏.《"双一流"建设成效评价办法(试行)》印发——突出培养一流人才、产出一流成果.光明日报.2021-03-24.http://www.gov.cn/zhengce/2021-03/24/content_5595248.htm..

[6]李侠."破四唯"如何下手[N].学习时报,2020-3-4(006).

[7]李志民.科技"三评""破四唯"究竟难在哪[N].中国科学报,2019-11-6(004).

[8]李磊,范子英.制度的扭曲:第一作者制度与论文合作[J].科研管理,2019,40(5):11.

[9]吴述尧.同行评议方法论[M].北京:科学出版社,1996:78-92.

[10][美]达里尔·E.楚宾,爱德华·J.哈克特.(谭文华,曾国屏译)难有同行的科学:同行评议与美国科学政策[M].北京:北京大学出版社,2011:19-44.

[11]Richard A.Muller.Innovation and science funding[J].Science1980(209):881-883.

[12]Rosalyn S. Yalow. Is subterfuge consistent with good science?[J].Bulletin of Science,Technology,and Society,1982(2):401.

[13]刘云.破"四唯"能解决中国科技评价的问题症结吗[J].科学学与科学技术管理,2020,41(8):5-8.

[14]徐芳,龚旭,李晓轩.科研评价改革与发展40年——以基金委同行评议和中科院研究所综合评价为例[J].科学学与科学技术管理,2018,39(12):17-27.

[15]李晓轩,徐芳."四唯"如何破:中国科学院研究所评价的实践和启示[J].中国科学院院刊,35(12):8.

[16]徐芳,李晓轩.破"四唯"需要"角马理论"[J].中国科技人才,2021(1):6.

[17]熊丙奇.破"四唯"需要全社会形成合力[J].上海教育评估研究,2019(6):36-38.

[18]桑熙."破四唯"和"立新标"并举完善科技人才评价体系.[N].学习时报,2021-6-16(006).

[19]杨凤珠,张颖,姚建林.破"四唯"背景下理工类研究生国家奖学金工作难点及解决对策探析[J].科技文汇,2021(5):5-6.

[20]蔡婷婷.破"四唯"稳人才促改革——以厦门自贸片区航空维修产业职称改革试点为例[J].厦门科技,2019,146(4):26-29.

[21]同行评议始于何时?Bobby的个人博客.2013-4-106:46https://blog.sciencenet.cn/blog-39731-675750.html.

[22]百度百科.伊斯兰黄金时代.同行评审.

https://baike.baidu.com/item/%E4%BC%8A%E6%96

%AF%E5%85%B0%E9%BB%84%E9%87%91%E6%97%B6%E4%BB%A3/8329654.

[23]李霞.话说科技出版国际英文科技期刊的同行评议(上)https://news.sciencenet.cn/html/showxwnews1.aspx?id=207779.

[24]Ray Spier.The history of the peer-review process[J].Trends in Biotechnology,2002,20(8):357-358.

[25]袁劼.基础评价理论的公理化分析与构建研究[D].上海:上海交通大学,2009.

[26]周春雷.试析现行学术评价体系的运作机理[J].中国科技期刊研究,2012,23(6):1013-1016.

[27]Suad Elsiddig Elamin Krar.运用信息技术支持科学研究能力的比较研究[D].兰州:西北师范大学,2018.

[28]杜杏叶.学术论文关键指标智能化评价研究[D].长春:吉林大学,2019.

[29]万昊,谭宗颖,张福俊,等.项目验收的同行评议辅助决策评价方法研究——基于贝叶斯正则化修正的BP人工神经网络模型[J].情报杂志,2017,36(11):192-199.

[30]王悠然.慎用人工智能参与同行评议[N].中国社会科学报,2021-5-26(002).

[31]Publons.全球同行评议现状报告:中文版[R].北京:科睿唯安信息服务(北京)有限公司,2018.

[32]李琦.J公司同行评审专家反评估模型设计研究[D].广州:华南理工大学,2011.

[33]冯麒玮.区域性科技项目评审系统关键技术研究及系统开发[D].重庆:重庆大学,2016.

[34]徐洪峰.同行评议专家反评估模型的研究[D].长沙:中南大学,2011.

[35]秦成磊,章成志.大数据环境下同行评议面临的问题与对策[J].情报理论与实践,2021,44(4):99-112.

[36]盛怡瑾.用户画像技术在学术期刊审稿人遴选中的应用[J].出版发行研究,2018,8:54-58.

[37]聂志璇.基于用户画像的同行评审专家精准化推荐方法研究[D].武汉:武汉科技大学,2020.

[38]李东,郝艳妮,何贤芒.国家自然科学基金同行评议专家信息库的梳理与重构设计[J].中国科学基金,2014,3:209-213.

[39]贺颖.基于科学计量视角的同行评议专家遴选问题研究[D].天津:天津大学,2008.

[40]高琢玉.基于多目标决策的专家遴选算法的研究[D].长沙:中南大学,2011.

[41]黄亚明.神经网络在基础研究成果综合评价中的应用[D].沈阳:中国医科大学,2004.

[42]王梓森,梁英,刘政君,等.科研项目同行评议专家学术专长匹配方法[J].计算机应用,2021,41(8):2418-2426.

[43]张素琪.专家分配问题的启发式求解方法研究[D].天津:河北工业大学,2006.

[44]李旭彦,宋英华,杨晓秋.基于PageRank的评审专家信誉度度量方法[J].科研管理,2016,37(3):133-142.

[45]任超.基于正反馈机制的遗传算法求解专家分配问题[D].天津:河北工业大学,2006.

[46]孟美任,彭希珺.基于VSM和余弦相似度的稿件精准送审方法[J].中国科技期刊研究,2018,29(10):982-986.

[47]熊小芸.同行评议项目分组与申请代码和关键词的选择[J].电子与信息学报,2011,33(1):245-254.

[48]肖小溪,周建中.国立科研机构科研人员评价的模式研究[J].科学学与科学技术管理,2009,30(4):20-24.

[49]龚旭.中美同行评议公正性政策比较研究[J].科研管理,2005,26(03):l-8.

[50]龚旭,夏文莉.美国联邦政府开展的基础研究绩效评估及其启示[J].科研管理,2003,24(2):1-8.

[51]曾菊英.基于产出弹性、TFP增长率冲击力研究的自然科学基金绩效评估——以浙江省为例[D].浙江:浙江工商大学,2006.

[52]陈光,陈凯华,龚旭,等.优化科学基金同行评议机制的思考[J].中国科学院院刊,2021,36(12):1427-1433.

[53]杜国强.风险规制型决策视域下的科学证据问题[J].证据科学,2021,29(3):320-332.

[54]张洪涛,朱卫东,王慧,等.多维框架证据推理的科研项目立项评估方法[J].科研管理,2013,34:122-128.

[55]肖人毅,王长锐.科研基金项目立项评估方法的研究与改进[J].系统工程理论与实践,2004(05):66-71.

[56]盛怡瑾,初景利.基于FMECA方法的同行评议系统可靠性分析[J].中国科技期刊研究,2018,29(07):676-684.

[57]茹潇潇.加强学科交叉型非共识基础研究项目支持对策[J].浙江科技学院学报,2018,30(04):328-342

[58]宋广佳,季振洲,张艳明.基于动态博弈的科技论文同行评审模式优化方法研究[J].赤峰学院学报(自然科学版),2015,31(08):19-20.

[59]焦艺茹.主动观点动力学模型——建模主动交互下的群体观点演化[D].哈尔滨:哈尔滨工业大学,2020.

[60]韩中庚.数学建模方法及其应用[M].北京:高等教育出版社,2009,6:159-183.

[61]陈敬全.科研评价方法与实证研究[D].武汉:武汉大学,2004.

[62]白仲林,张晓峒.面板数据的计量经济分析[M].天津:南开大学出版社,2008.

[63]张荣.新环境下同行评议的机制研究[D].武汉:武汉大学,2005.

[64]彭琳.近五年开放获取期刊新出版动态研究[J].中州大学学报,2021,38(1):81-85.

[65]彭琳,杜杏叶.科技期刊实施开放式同行评议策略研究[J].中国科技期刊研究,2018,29(11):1114-1121.

[66]魏巍."跨学科研究"评价方法与资助对策[D].合肥:中国科学技术大学,2011.

[67]岳名亮,李富山,汤宏波,等.期刊审稿专家一致性评价方法及其有效性验证[J].数据分析与知识发现,2021,4:115-122.

[68]李亚帅.NSFC项目绩效评估系统的研究与开发[D].大连:大连理工大学,2007.

[69]治丹丹.区块链技术支持的科技论文出版平台Orvium特色服务运营模式及启示[J].科技与出版,2021,5:85-92.

[70]谢珍,马建霞,胡文静.学术代表作评价:方法述评与研究展望[J].情报理论与实践,2021,44(12):190-196.

[71]百度百科.物勒工名.https://baike.baidu.com/item/物勒工名.

[72]宣兆琦.《考工记》的国别和成书年代[J].自然科学史研究,1993:297-303.

[73]李雄文.同行评议在科技奖励工作中的利与弊[J].中国科技奖励,2000(8):22-23.

[74]苏力.我国高校教师科研业绩评价有效性的研究[D].苏州:苏州大学,2004.

[75]王孟源.观察者.杨振宁回国后投稿国际期刊遭拒是国外审稿比中国严?https://www.guancha.cn/wangmengyuan/2017_09_21_428018_s.shtml.

[76]柳堤,李政.遵从科创规律:再谈科创成果与年龄的关系[J].今日科苑,2021,6:17-26.

[77]赵红州.关于科学家社会年龄问题的研究[J].自然辩证法通讯,1979(04):29-44.

[78]梁立明,赵红州.重大科技成果威布尔分布的普遍性[J].科学学与科学技术管理,1992,13(03):7-14.

[79]朱明明."单干"与"团队"科研模式下创新人才成长规律建模比较研究[D].南昌:江西师范大学,2014.

[80]周建中,闫昊,孙粒.我国科研人员职业生涯成长轨迹与影响因素研究[J].科研管理,2019(10):16.

[81]曹晓丽,王森芃,姚妞妞.创新型科技人才成长路径分析[J].信息系统工程,2020(11):6.

[82]雷小苗,李正风.国家创新体系结构比较:理论与实践双维视角[J].科技进步与对策,2021,21(38):8-14.

[83]项飙.為承認而掙扎:社會科學研究發表的現狀和未來[J].澳門理工學報,2021(04):113-119.

[84]丁厚德.科技资源配置评价研究[J].中国科技资源导刊,2010,42(03):1-5.

[85]龚旭.同行评议公正性的影响因素分析[J].科学学研究,2004,22(06):6.

[86]李静海,胡英,袁权.探索介尺度科学:从新角度审视老问题[J].中国科学:化学,2014,44(03):277-281.

[87]Batterham R.Compromise through competition:a more widely application approach?[J].Engineering,2016(02):286-287.

[88]LiJ.,Huang W.,Chen J.Possible road map to advancing the knowledge system and tackling challenges from complexity[J].Chemical Engineering Science,237(2021)116548:1-6.

[89]Li Z. Criteria-based patent mapping for assessing potential 

conflicts between patentclaims[D]. PhD Thesis of Brunel University London,2014.

[90]郭华.鉴定结论之研究[D].北京:中国政法大学,2006:1-89.

向下滑动浏览


作者:李政1、肖小溪2、韩军徽3、黄雷4、翟岩51 中国科协创新战略研究院2 中国科学院科技战略咨询研究院3 中国科学技术发展战略研究院4 中国数学会5 国家科技评估中心


——END——


源:创新研究,本文原载于《今日科苑》2022年第6期

责编:长白

审核:叶紫

本文内容及未标注图片来自网络,版权归原作者所有,仅供分享之用,不代表本公众号观点。欢迎投稿,来稿和内容合作微信:yeziwuyuxin。


延伸阅读

科研评价实践如何从“破与立”到“评与用”?

从“五唯”到“多维”:教师学术评价如何变革?

高校职称改革再发力,讲师也可聘为教授岗位

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存