期刊审稿专家评价方法及有效性

时间:2022-11-02 02:39:17

导语:期刊审稿专家评价方法及有效性一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

期刊审稿专家评价方法及有效性

1引言

同行评议是科学评价最重要、最普遍的方式,在论文评审、项目遴选、职称评定、学术荣誉授予等众多科学评价过程中被广泛采用,用于鉴别科研价值、保障科研质量[1]。对于期刊论文评审,审稿专家对研究工作的重要性、有效性、创新性等进行评定,同时向作者提供有关错误校正、理论/方法改进等方面的建议[2]。有效的同行评议过程是保证稿件质量、提高期刊声誉与影响力的重要保障[3,4]。同行评议相关问题得到了国内外学者们比较广泛的关注与研究[5]。考虑到同行评议结果受专家个体差异性的影响,如主观意志的影响、专业知识水平的局限以及评议过程中其他偶然因素,容易产生偏见与片面性[1],学者们开始着手研究评议专家“反评估”方法,以期评估专家的评审行为,为评议专家遴选提供参考,以尽可能提高同行评议结果的公平与公正[6-12]。文献[6]基于评议专家的基本情况、修养和工作业绩三个方面对评议专家进行评估,奠定了评议专家“反评估”的基本指标体系。作者指出,工作业绩指标可基于历史评议数据计算得出,具有较好的可获得性。其下属指标包括评议项目累计数、(评分数据的)离散率、命中率(推荐项目数/立项项目数)、算数偏差(与其他专家意见的偏差)等维度。文献[7-12]在文献[6]的框架下,从数学意义与物理意义讨论了指标体系的合理性[7],设计了更加细粒度的指标体系及相应的权重分配[8,9],对评估数据进行预处理以提高评估可靠性[10],基于不同案例对指标体系进行验证分析[7-9,11]。文献[12]针对期刊评议,从审稿时长、审稿意见长度以及审稿意见与编辑意见的一致性三个维度出发,设计了F3指数用于辅助期刊评审人选择,整体而言也并未超出文献[6]所给出的指标体系范畴。上述工作较大地推进了评议专家评估指标体系的建立与应用,然而还存在以下可改进之处:(1)文献[6]中“工作业绩”指标的核心理念为,在存在大量评议数据时,评议专家的业绩可基于该专家与其他专家的一致性程度进行刻画(一致性越高业绩更好)。因而,在文献[6]的框架下,现有研究中工作业绩指标均只考虑了蕴含于评议过程与评议结果数据中的专家知识,而未考虑更广大的学术共同体的认可度。(2)现有研究对指标的验证分析往往退化为指标的应用分析。即针对某组评议案例计算指标值,进而从数值分布的角度分析指标的合理性。缺乏评议专家(的评分)与评议对象(如被学术共同体认可程度)的交叉验证。针对上述问题,本文针对期刊评议,同时考虑蕴含于评议数据中的专家知识与蕴含于发表文献的计量数据中的学术共同体知识,提出一种审稿专家一致性评价方法,基于《长江流域资源与环境》期刊评议数据与已发论文的计量数据计算一致性指数,设计假设检验方法检验一致性更高的专家是否能对论文做出更为准确的评价。本文的方法有望辅助期刊编辑从数据的角度了解审稿专家,从而为专家遴选提供参考。

2一致性指数

针对期刊论文评议,本文的核心思想为,审稿专家的评议意见应契合于论文的学术水平。在评审阶段,论文的学术水平应契合于评审论文的(所有)专家的整体意见;后,论文的学术水平应契合于学术共同体的认可程度。换言之,审稿专家的业绩可基于其与(其他)审稿专家的一致性程度(简称“评审一致性”)以及其与学术共同体认可度的一致性程度(简称“学术共同体一致性”)刻画。因而,本文的一致性指数C定义如公式1所示:(1)rpC=C+−C(1)其中,Cr与Cp分别为评审一致性与学术共同体一致性,一致性指数C为Cr与Cp的线性叠加,(0,1)为叠加权重,用于决定评审一致性与学术共同体一致性在最终一致性指数中的占比。在实际应用中,可设置α=0.5以表达评审一致性与学术共同体一致性在构成一致性指数时同等重要[13]。对于评审一致性,考虑到每篇论文需要多个专家评审,大部分专家具备审理多篇论文的经历,令1,mS=ss,isS为专家对其所审理的论文i的评分,1,mE=ee,ieE为审理论文i的所有专家评分的平均值,则评审一致性Cr定义如公式2所示:(,)rC=rSE(2)其中,r()[−1,1]返还两个给定向量的皮尔森相关性系数[14],用于反映两个变量的一致性程度。si的取值决定于审稿数据所使用的评分量表。现行审稿制度中,李克特量表由于其易于编制和较高的信度成为应用最为广泛的一种量表形式。而我国期刊评审主要采用李克特量表的3、4与5分制量表[15]。具体到本文的研究,由于后续所使用的《长江流域资源与环境》期刊的评议数据遵循4分制量表,公式2中,{1,2,3,4}iisSs(其中1至4分别对应拒稿,重大修改,修改后录用,录用)。在使用论文平均值表征所有审稿专家的综合意见的情况下,公式2表达了专家的评审历史中,对论文的评价与其他专家的一致性程度。对于学术共同体一致性,后,论文的下载、引用等计量指标可表征学术共同体对论文的关注、认可程度[16]。本文基于论文的被引次数表征论文被学术共同体的认可程度。其中“认可程度”不对论文的质量或学术创新性进行评价,而代表学术共同体认为该论文对推进某方面研究具备(正向或负向)借鉴意义。因而,给定1,mTC=tctc,itcTC为i的被引次数,则学术共同体一致性Cp定义如公式3所示:(,)pC=rSTC(3)公式3表达了有专家审理且发表的论文,专家对论文的评价与学术共同体对论文认可度的一致性程度。由一致性指数的定义可知,一致性指数是文献[6]中“工作业绩”指标下属“算数偏差”指标的改进与扩展。一致性指数的计算蕴含了专家需具备一定的审稿量(累计数),论文评分具备一定的离散度(否则无法计算一致性1),所评审论文具有一定的命中率(即录用率,否则无法计算共同体一致性)。换言之,本文所设计的一致性指数是一个较为综合的工作业绩指标。下面将探讨一致性指数是否可用于表征审稿专家对论文做出准确评价的能力。

3有效性分析

3.1检验方法。基于一致性指数的定义可知,相较而言,一致性更高的专家应对论文的评价应更契合于(其他)审稿专家以及学术共同体对论文的认知。考虑到后,对论文进行“审阅”的读者比审稿专家更多,同时也更具多样性(学术领域多样性、学术成就多样性等),本文基于已的被引次数检验一致性指数的有效性。具体而言,给定专家集合R,评分集合S、发表文献集合P及其对应的被引次数集合TC,首先基于公式1计算所有审稿专家的一致性指数集合C。对iRR,令ijsS为专家Ri对论文jpP的评分,ijtcTC为专家Ri对论文pj的评分,则专家区分度集合D定义如公式4所示:{{}{}}hliiD=AvgTCAvgTC(4)其中,Avg{}返还给定数值集合的均值,,,,hlijiijikiiktcTCsHtcTCsL,H与L用于定义高/低评分论文,如可定义H={3,4},L={1,2}用于表达直接录用或修改后录用为高评分论文,否则为低评分论文。由公式4可知,对于每个审稿专家,专家区分度给出了该专家所评审的高评分论文的平均被引次数相对低评分论文的平均被引次数的倍数关系,该值越大,表明专家区分论文的学术共同体认可度的能力越强。令idD为专家Ri的区分度,icC为专家Ri的一致性指数,定义{|}hiiD=dDc为高一致性专家的区分度集合,其中为给定参数,用于决定高一致性专家的最低一致性指数值。令lhD=D−D为(相对)低一致性专家的区分度集合。使用Mann-WhitneyU检验Dh与Dl是否具有显著的差别,以回答高一致性专家是否可更有效地区分论文的学术共同体认可度。考虑到一致性指数的定义中“学术共同体一致性”作为合成指标之一,一致性指数的计算过程理应逻辑蕴含“高评分论文组平均被引次数高于低评分论文组平均被引次数”的趋势,本文进一步从数据上将一致性指数的计算过程与检验过程进行物理分割。针对给定数据集,基于给定年份Y将数据分割为两个互斥的子集。基于早于或等于该年份的数据集计算高一致性专家hpreR的区分度hpreD,进而基于晚于该年份的数据集计算hpreR中的专家在后续年份中的区分度hpstD,使用Mann-WhitneyU检验hpreD与hpstD是否具有显著的差别。此方法具有两个优势:1)由于数据的物理分割,基于更早数据计算的一致性指数将不再蕴含新数据中“高评分论文组平均被引次数高于低评分论文组平均被引次数”的趋势;2)检验结果可用于回答“具备高一致性指数的审稿专家对论文学术共同体认可度的辨识能力随时间的推移可以得到保持”,从而验证基于历史数据计算一致性指数并辅助审稿专家遴选是否具备可行性。3.2样本数据。本文将基于《长江流域资源与环境》期刊评议数据与已发论文的被引数据计算审稿专家一致性指数,并对专家区分度进行检验。《长江流域资源与环境》创办于1992年,刊物立足于长江流域,面向国内外,围绕长江流域的资源开发与利用保护、生态环境、社会经济可持续发展、河流流域综合管理、湖泊富营养化、湿地恢复与保护、自然灾害等重大问题,报道原创性的研究成果。创刊以来,在近30年的办刊过程中积累了大量专家评议数据(由于数字化原因,审稿数据主要集中于2009至今,本次样本数据截止2019年4月)。由于一致性指数的计算要求审稿专家具备一定数量的关联审稿意见,同时检验分析需基于已开展,定义至少具备m个审稿意见的论文为有效论文,选取至少审理过n篇已发表的有效论文的专家作为有效专家。不同m与n的设定将导致有效专家数的不同,且随着m与n的增大,有效专家数与有效论文数将(迅速)降低。通过对审稿数据的充分探索,综合考虑有效数据量以及计算所需的关联数据量,本研究初定m=2,n=6进行计算与检验。经过筛选,共177位有效专家所涉及的3114篇有效论文作为本研究的样本数据进行检验分析。3114篇中,1245篇论文已发表,1869篇论文最终未能获得录用。所有3114篇论文均将用于计算评审一致性,最终获得录用的1245篇论文将用于计算学术共同体一致性。数据的详细统计信息如图1-图4所示。图1给出了177位有效专家审理的有效论文数与有效数,其中审理的有效论文数分布于[6,75]之间,均值约为28篇,审理的有效数分布于[6,23]之间,均值约为9篇。图2给出了3114篇有效论文的审稿专家数分布。论文的审稿专家数分布于2-4之间,平均约2.2位专家/篇。经中国知网检索并采集1245篇的被引次数(检索日期2020年5月18日),并通过论文标题将论文被引次数与审稿记录相对应。图3与图4分别给出了1245篇已发论文的发文时间分布以及截至检索时的被引次数分布,可见本案例所使用的绝大部分有效已发论文分布于2010-2019年之间,论文的被引次数分布于[0,343]之间,大体服从长尾分布。结合图3与图4可知,已发论文的发文时间以及被引次数均分布于一个较大的区间,年份的不同可能导致被引次数无法合理比较。而由公式3和4可知,被引次数的可比性是一致性指数计算与检验的关键因素之一。因而,本文使用期刊规范化的引文影响力(JournalNormalizedCitationImpact,JNCI)代替被引次数。JNCI由数据商科瑞唯安提出,定义为论文的被引次数与同出版年发表在同期刊上的论文的期望被引次数的比值,主要用于出版年对被引次数的影响。具体而言,令论文pi的发表年为yi,被引次数为tci,则pi的JNCI值jncii计算如公式5所示。,,{}tijjitcjncitcTCyyAvgTC==(5)基于公式5计算上述1245篇论文的JNCI值,并在公式3与4中,对ip,使用jncii值替换tci值,以消除发文时间的影响。3.3检验结果依据。3.1小节所述检验方法,设定叠加权重α=0.5以表达评审一致性与学术共同体一致性同等重要,高评分论文评分集合H={3,4},低评分论文评分结合L={1,2},有效审稿意见数m=2,有效审理论文数n=6。177位专家中,7位专家对其审理的已给出的评分均为相同分值,无法计算学术共同体一致性,因而无法计算一致性指数。剩余170位专家的一致性指数分布如图5所示。由图5可知,专家一致性指数分布于[-0.049,0.752]之间,均值μ=0.38,标准差σ=0.203,服从正太分布(Kolmogorov-Smirnov检验p=0.08)。基于上述170位专家的一致性指数,设定=+k*(一致性指数大于τ为高一致性专家),对专家区分度进行检验。在计算区分度的过程中,为了进一步保证计算的准确性,对任意专家,我们进一步要求其审理并发表的(大于6篇的)论文中,高、低评分论文均需至少存在3篇。因而170位专家中,最终有64位专家具备区分度并参与假设检验(低一致性专家样本量+高一致性专家样本量=64)。使用Mann-WhitneyU检验对64位专家的区分度进行检验,图6给出了k=0,0.1,0.2,0.3,0.4,0.5时,高一致性专家与低一致性专家的区分度的均值,以及高低一致性专家均值的比值(即图6“高低比”),表1则给了更加详细的统计量(表1中“高”、“低”分别代表高一致性专家与低一致性专家所对应的统计量)。结合图6与表1可知,整体而言,高一致性专家的所评价的高评分论文的JNCI是其所评价的低评分论文的2倍,且随着高一致性阈值的增加,高低评分论文的区分度逐渐增加。反观低一致性专家,其所评价的高评分论文的JNCI与其所评价的低评分论文并无太大差别(在区分度1附近波动)。假设检验表明高一致性专家的区分度显著高于低一致性专家的区分度(以p=0.000拒绝“高低一致性专家的区分度无显著差异”的零假设),表明高一致性专家更能有效地区分论文的学术共同体认可度。为了验证本文方法在不同参数设定下的表现,进一步设定m=2,n=8进行计算与检验。经筛选,共116位合法专家涉及2489篇合法论文,其中1022篇已发表,1467篇未能录用。审理的有效论文数分布于[11,75]之间,均值约为32篇,审理的有效数分布于[8,23]之间,均值约为11篇。1467篇有效论文的审稿专家数分布于2-4之间,平均约2.2位专家/篇。116位专家中,113位可计算一致性指数。专家一致性指数分布于[-0.038,0.752]之间,均值μ=0.368,标准差σ=0.17。表2给出了k=0,0.1,0.2,0.3,0.4,0.5时高一致性专家与低一致性专家所对应的统计量。结合表1与表2可知,本文方法在不同参数设置下性能表现一致。如3.1小节所述,以下将通过将数据集进行物理分割以移除一致性指数计算过程与验证过程之间的相关性,同时考察具备高一致性指数的审稿专家对论文学术共同体认可度的辨识能力随时间的推移可以得到保持。考虑到专家评审论文的时间也存在较大差异,统一的切分时间可能导致数据切割不均匀。本文针对每个审稿专家,将其所审理的已的发表年按从早到晚排序,选取排序中值的论文的发表时间作为切分时间,以保证数据切分的均匀性。进而设定α=0.5,H={3,4},L={1,2},m=2,n=8,10,12计算历史数据(切分时间前的数据)审稿专家一致性指数hpreD,基于τ=μ确定高一致性专家,基于验证数据(切分时间后的数据)计算高一致性专家在验证数据中的一致性指数的hpstD,并使用Mann-WhitneyU检验hpreD与hpstD是否具备差异,结果如图7所示,其中红色与蓝色数据点分别代表基于验证数据与历史数据计算的区分度。详细检验统计量如表2所示(“前”、“后”分别代表历史数据与验证数据)。其中,n的取值(8,10,12)尽可能权衡了计算一致性指数所需的数据量与最终可参与检验的专家数,随着n的变化,最终检验专家数会有所不同。结合图7与表3可知,历史数据中的高一致性专家在历史数据与验证数据上的区分度并无显著差别(分别以p=0.482,0.613,1保持“历史数据与验证数据上高一致性专家的区分度无显著差异”的零假设),验证了审稿专家对论文学术共同体认可度的辨识能力随时间的推移可以得到保持,基于历史数据计算一致性指数并辅助审稿专家遴选具备可行性。

4总结与讨论

本文针对期刊评议,设计了一种审稿专家一致性评价方法以综合考察专家对稿件的认知相对其他专家以及学术共同体的一致程度,基于《长江流域资源与环境》期刊评议数据与已发论文的引用数据计算了部分审稿专家的一致性指数。设计了假设检验方法,基于整体数据以及划分数据检验了一致性指数对专家区分度的决定能力。分析表明高一致性专家更能有效地区分论文的学术共同体认可度(能获得更多的引用),且该能力随时间的推移可以得到保持,基于历史数据计算一致性指数并辅助审稿专家遴选具备可行性。值得注意的是,评议专家评价是一个复杂的问题。本文从数据的角度对论文审稿专家进行了定量刻画与解读,而专家遴选过程中,对专家的定性了解同样十分重要。因而,本文的专家一致性指数不是要替代期刊编辑进行专家选择,而是希望在期刊编辑选择审稿专家时为其提供客观的数据参考,以提高遴选效率与效果。此外,由于论文的学术性、创新性评价也是一个复杂的问题,本文在专家一致性指数的计算与检验过程中,论文被引次数仅用于表征学术共同体认可其对推进某方面研究具备(正向或负向)借鉴意义,而不对其学术性进行解读。在实际的计算过程中,被引次数也可替换为其他相关指标,如Altmetrics指数。最后,本文以《长江流域资源与环境》为案例检验了一致性评价在期刊评审人遴选上的辅助作用。在合理的指标选择下,本文的方法可迁移至项目评审人一致性评价。如对于学术共同体对项目执行效果的认知,可基于项目的获奖情况、项目发文的被引情况等进行刻画。考虑到本文验证数据的来源与规模,后续研究将进一步扩充评议数据量(如采集数据完整的开放评议数据),以在更大规模的样本上验证本文方法的有效性。

作者:岳名亮 李富山 汤宏波 吕新华 马廷灿