作者特征和期刊特征论文被引要点

时间:2022-09-15 11:36:33

导语:作者特征和期刊特征论文被引要点一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

作者特征和期刊特征论文被引要点

1引言

学术论文作为知识的有形载体在学术交流和科技进步中起到极大的促进作用,学术论文的被引频次反应了其研究成果的科研水平和应用价值。对于已经发表2-6年的论文,我们可以通过被引频次评估其影响力。事实上,作者、科研机构和期刊编辑人员更关心之前的被引频次,作者和科研机构关注研究成果未来的被利用情况,可预测其研究成果的应用价值,期刊编辑关注论文的被引用情况,可预估期刊的影响力。目前,国外已有不少学者研究了学术论文被引频次的影响因素。早在1983年Stewart,J.A就发现,作者的声誉会影响其论文的被引量【1】;VanDalen【2】认为,作者的一些特征是引用分配的决定因素;之后VanDalen等【3-4】发现作者过去的表现在某种程度上可以预测其科研成果的影响力,并指出论文的可获取性、作者声誉和期刊特征是影响论文被引频次的最重要因素;JoyceCW等【5】通过文献计量分析,发现论文的研究内容、论文所在期刊的特征以及作者特征是影响论文被引频次的主要因素;MingyangWang等人【6】通过研究四种特定期刊的文章,发现第一作者的h指数是影响论文被引频次的关键因素;GiovanniAbramo等人【7】发现高被引论文与高产作者具有强相关关系,高被引论文还受学科因素的影响;TianYu等【8】研究了论文作者特征、引文特征和期刊特征等对论文未来被引用频次的影响。国内学者对论文被引频次的影响因素也进行了深入广泛的探讨,其代表性研究有:邱均平等【9】通过实证研究,证明了中的马太效应,即越是出名的作者越容易获得在众多核心期刊发表的机会;之后,侯剑华等【10】在研究中进一步证实了发文作者中的马太效应,作者的声誉可能会影响期刊论文被引用的频次;孟凡蓉等【11】以5本高被引核心期刊论文为样本,实证研究了论文被引频次与论文刊载时间、论文所在期刊的影响因子、论文研究方法、论文作者特征等有关;王海涛等【12】利用负二项回归模型研究了论文作者数量对论文被引频次的影响规律;鲍玉芳等【13】从作者因素、文章因素、期刊因素、计量方法因素等方面建立了影响论文被引频次的指标体系;肖学斌等【14】在研究中发现作者人数与论文被引频次呈正相关。前人的研究成果为本文从作者、期刊视角进行论文被引频次预测的研究奠定了良好的基础。但已有研究多是利用传统的学术影响力指标如发文量、被引次数、h指数、影响因子等研究论文的被引频次,很少关注论文被引频次预测的研究【15】,国内更是鲜有综合多因素对学术论文被引频次进行预测的研究。本文拟在前人研究的基础上,选取论文作者和论文所在期刊两大特征指标来构建影响论文被引频次的空间向量,通过多元统计分析,探析作者特征、期刊特征与论文被引频次的相关性,并给出学术论文未来被引频次的预测模型,为科研人员、科研机构以及期刊编辑人员分析论文质量、预测论文未来的影响力提供参考依据。

2影响论文被引频次的作者特征与期刊特征

高水平作者因其具有较高的学术产出和学术影响力对期刊学术水平和影响力的提升起着十分重要的作用【16】。而高水平作者通常由其发文量、论文总被引次数、篇均被引次数和h指数等指标来衡量。故本文选取的论文作者特征指标包括:论文对应的作者数量、作者h指数、作者发文量、作者已见刊论文的被引量和篇均被引量;期刊被引指标直接反映论文的被引频次,根据《中国科技期刊引证报告(2012年版)》中给出的期刊被引指标,本文选取期刊影响因子、期刊即年指标、期刊h指数作为反映论文被引频次的期刊特征指标。初步选取的影响学术论文被引频次的13个指标见表1。

3学术论文被引频次预测

3.1研究工具与方法。本文利用Excels工具完成数据统计,运用SPSS统计分析中的相关分析对影响论文被引频次的指标进行初步筛选,利用SPSS统计分析中的逐步回归分析构建论文未来被引频次的预测模型。相关分析是研究现象之间是否存在某种依存关系,测度各个变量之间关系的一种统计方法。在相关分析中,变量之间关系的密切程度用一个数值来表示。一般根据相关度数值的大小,将相关度r分为4个等级:0<|r|<0.3,为微弱相关;0.3≤|r|<0.5,为低度相关;0.5≤|r|<0.8,为显著相关;0.8≤|r|<1,为高度相关【17】。逐步回归分析是一种在多元回归模型中选择变量的方法,该方法从包含多个自变量组合的回归方程中逐个检验回归系数,剔除对因变量作用不显著的自变量,对剔除后剩下的自变量建立对因变量的多元回归方程,再逐个检验回归系数,剔除不显著的变量;重复上述步骤,直到保留在回归方程中自变量的作用都显著为止,最后一个方程给出的便是独立变量的最佳组合。所以,该方法不仅保证了所选变量的有效性和重要性,也减少了额外引入冗余变量;不仅能够提取隐藏在大量数据集中的重要信息,还可以使用有效变量来预测和控制一个特定的变量。逐步回归分析包括向前选择、向后淘汰和双向消除,本文选择双向消除法。在实际应用中,相关分析与逐步回归分析有着密切关系。在相关分析中,所讨论变量的地位一样,分析侧重于随机变量之间的相关特征,根据相关性显著与否可对变量进行初步选取;而在逐步回归分析中,所关心的是一个随机变量对另一个或多个随机变量依赖关系的函数形式,因此,在相关分析初步选定变量的基础上,通过逐步回归分析对变量进行再次筛选,可以获取利用关键变量表征某一变量的预测模型。3.2数据准备。由于影响学术论文被引频次的因素很多,为凸显作者和期刊两大特征对学术论文被引频次的影响,弱化其他因素的影响,特做如下的限定:①限定所选的数据库。由于数据库对论文的被引频次有影响【18】,保持论文被收录数据库的一致性可弱化数据库对论文被引频次的影响,所以限定CNKI数据库作为本文的采样数据源。②限定所选的学科。UgoFi⁃nardi和GiovanniAbramo分别在研究中发现,期刊论文的被引频次与学科有关【7】【19】;鲍玉芳也指出论文被引频次与学科具有相关性【13】,为弱化学科因素对论文被引频次的影响,本文限定图书情报学期刊论文为研究对象。另外,预测学术论文被引频次时,预测时间的长短要考虑学科论文的被引高峰期,预测时间过长或过短,远大于或远小于被引高峰期,都会失去预测原本的意义。盛丽娜【20】通过对SSCI收录的35种信息科学与图书馆学期刊被引高峰期的分析,发现信息科学与图书馆学期刊被引高峰期的时间平均为6.25年。“信息科学与图书馆学”和“图书情报学”属于同一类学科,因此,本文将预测时间定为7年,选取2011年第1期、第2期的论文为研究对象,将论文作者特征作为自变量,选取上述论文2017年12月31日之前的被引频次为因变量。数据获取的具体过程为:首先选定图书情报学领域的17种核心期刊(2011年南大CSSCI期刊目录中,给出18种图书情报学期刊,由于《情报学报》没有被CNKI收录,考虑到数据获取的方便性,没有选取《情报学报》),以2011年第一期论文为数据样本,共526篇。然后,在CNKI数据库高级检索界面“主题”中输入样本论文的题目,检索到的时间、论文作者及单位,记录每篇论文的作者数目x1和该论文的被引频次y。之后删除“主题”中的论文题目,以“作者姓名+作者单位+年份”的检索策略进行检索,检索时间设置为该日期的前一日。对涉及多个单位的作者,根据其研究方向,修改作者单位后进行多次检索,以降低检索噪声,得到作者本之前的所有论文。最后将检索到的论文按被引量降序排列,统计每位作者的发文量、每篇论文的被引量、所有论文中的最大被引量、总被引量和作者h指数,统计每篇论文所有作者中的最大发文量和最大被引量等,作为作者特征指标的原始数据。统计发现,526篇论文的累计被引频次为4884。少数论文被引频次较高,多数论文被引用了少数几次,被引频次为0次的论文有50篇,全部526篇论文的被引频次呈长尾分布,符合图书情报学学科领域集中分散的引用分布规律,说明本文选取的数据是有效的。从《中国科技期刊印证报告(2011年版)》中选取并记录上述17种期刊对应的期刊影响因子、期刊即年指标、期刊h指数三个期刊引文指标,作为影响论文被引频次的期刊特征数据。将获取到的数据做如下的处理:对每种期刊所有论文对应的每个指标[包括期刊特征指标Ji(i=1、2、3)和作者特征指标Ak(k=1、2、…、10)]分别求和后取均值作为该期刊对应指标Ji、Ak的值,将“论文-被引频次-影响特征指标”关系转变为“期刊-被引频次-影响特征指标”关系;之后,为消除各指标因单位不同带来的数量上的差异,将所有期刊对应的Ji、Ak值作归一化处理,见表2。以此作为后续论文被引频次y与Ji、Ak相关性分析的数据基础。33.3相关性分析将表2数据导入SPSS进行相关性分析,各指标与论文7年后被引频次y之间的相关系数如表3所示。表3给出了论文被引频次y与选定的3个期刊指标Ji和10个作者特征指标Ak的相关系数。根据相关分析中相关度r的4个等级标准【17】不难发现,期刊h指数J3、作者数量A1与论文被引频次y呈微弱相关,作者数量A1与论文被引频次y的相关度最小,为0.262,说明作者数量与论文被引频次关系不大,期刊h指数的高低对论文被引频次的影响也不明显。与论文被引频次y显著相关的指标有J2、A2、A3、A5、A6、A7、A8、A9、A10。其中,与A10的相关性最高,为0.710。说明期刊即年指标、一篇论文所有作者中作者h指数的最大值、第一作者的发文量、所有作者被引频次的最大值、第一作者的最大被引频次、所有作者中总被引频次的最大值、第一作者的总被引频次、第一作者的h指数对论文被引频次具有明显的影响;而第一作者之前的篇均被引频次对论文被引频次的影响最为显著。说明上述作者特征指标具有高度一致性,它们从相似或等同的视角反映了论文的学术影响力。考虑到表3中A2、A3、A5、A6、A7、A8、A9、A10之间的相关度较高,为避免重复计算同等或相似的特征指标,本文利用逐步回归分析确定对论文被引频次贡献突出的指标,将贡献不突出的指标自动剔除,从而保证所选变量的有效性和重要性,以建立最优的回归方程。3.4学术论文被引频次预测模型构建。根据相关分析结果,选取与被引频次y具有显著相关关系的J1、J2、J3、A2、A3、A5、A6、A7、A8、A9、A10指标作为自变量,y为因变量,做逐步回归分析处理。利用逐步回归构建预测模型时,要求样本数量至少是变量数的五倍以上,样本越多,得到的预测模型预测效果越好【21】。鉴于此,本文以526篇论文为样本数据,样本数(526)是变量数[1(y)+3(Ji)+10(Ak)=14]的37倍以上。利用SPSS19.0对526篇论文“论文-被引频次-影响特征指标”的归一化数据进行逐步回归分析,结果见表4。由表4发现,第一作者的篇均被引量A10和期刊即年指标J2的t值分别为3.930和2.942,均大于2,Sig(P值)分别为0.001和0.008,通过了显著性检验。表3同时给出了回归系数B,由此确定:论文被引频次可由第一作者之前的篇均被引量A10和期刊即年指标J2来预测,其预测模型为:y=0.781J2+1.176A10-0.052。3.5模型评估与结果分析。从上述17种期刊中随机选取8种期刊,如《中国图书馆学报》《大学图书馆学报》等,利用给出的预测模型对其2011年第2期152篇论文(第2期超过20篇论文的,选取其前20篇论文)7年后的被引频次进行预测,并与同一篇论文7年后的实际被引频次进行对比,对比结果在Excels中按每个数值所占大小的变化趋势呈现,如图1所示。图1预测结果显示,对8种期刊论文而言,回归方程的整体预测结果比较令人满意。但仍存在一定的误差,误差产生的主要原因是:(1)论文作者因素。影响预测结果的作者因素是多方面的:①一些作者的发文量较少,但被引量却很高。如王妙娅发表“国内图书馆服务博客调查分析”(发表于《情报资料工作》2011年第2期)一文之前仅发表了一篇论文“国内图书馆微博应用现状及建议”,但其被引频次却达到140次,这属于“非高产作者成为高影响力作者的可能性极低”【9】的现象。②作者发表的多篇论文中每篇论文的被引频次差异较大。如王知津在2011年1月份之前被CNKI收录的期刊论文共100篇,有的被引次数很高,有的被引次数较低,比如2006年发表在《图书与情报》中的“网站评价指标体系的构建方法与过程”一文,被引频次达122次;2007年发表在《图书馆杂志》中的“基于改进遗传算法的XML信息检索研究”至今没有被引用,其篇均被引频次虽为11.07次,但本文选取的王知津2011发表在《图书情报知识》第一期的“企业竞争情报作战室运行准备机制研究”至今被引用2次。模型出现类似预测误差的还有郑建明的论文“传承历史探索发展——《中国目录学:理论、传统与发展》评荐”(刊登于《图书情报知识》,发表时间为2011年第2期)、孙瑞英的论文“基于‘非零和博弈’视角的公共图书馆立法与运行研究”(刊登于《图书馆》2011年第2期)等。分析发现,这些点对应的作者多属于图书情报学研究方向的知名学者,这一现象提示我们:基于作者特征建立预测模型时,需要根据作者之前影响力的不同对作者特征赋予适当的权重系数,以减小预测误差。③论文作者位次的不同会导致预测不准。如南京理工大学的章成志2011年1月份之前被CNKI收录的期刊论文共15篇,以第一作者身份发表的期刊论文7篇。以第二作者身份发表的两篇论文“国内网络舆情研究的回顾与展望”和“互联网舆情分析及应用研究”被引频次分别高达243次和119次,而以第一作者身份发表的论文“自动标引研究的回顾与展望”最高被引频次61次,多数论文的被引频次一般在几次左右,有的为0次。说明第一作者之前发表的论文中,作者署名位次的不同对论文的被引频次有影响。统计以第一作者身份的被引频次,以此为模型指标得到的预测效果可能会更理想。(2)论文所在期刊因素。对比图1给出的各期刊论文被引频次的预测结果,发现预测效果因期刊而异。模型对一些期刊的预测效果比较理想,如《大学图书馆学报》《图书情报工作》《国家图书馆学刊》《情报资料工作》《图书馆工作与研究》,其论文的预测被引频次占比曲线与实际被引频次占比曲线吻合度较高;对一些期刊的预测效果一般,如《中国图书馆学报》《图书情报知识》《图书馆》,两曲线的吻合度不甚理想。说明学术论文被引频次的预测效果与期刊有关。这种预测结果的差异性提示我们:研究学术论文被引频次的预测模型时,需要把样本数据范围作更严格的限定,即不仅限定到某一学科,还应限定到学科内具体的某个期刊,这样预测效果或许能得到一定的改善。(3)论文研究内容和研究方法因素。本文是在限定学科和数据库的前提下研究作者、期刊对论文未来被引频次的影响作用的。实际上,除了数据库、学科、作者、期刊因素外,论文的研究内容和研究方法对其未来的被引频次也会产生一定的影响。研究内容与方法决定了论文的类型,如有的论文属于理论型、有的论文属于应用型、还有的论文属于实践型;有的属于专题性,有的属于综述性等。由于研究者的研究兴趣和研究习惯不同,其引用论文的类型也有差异。所以,需将论文研究内容和研究方法作为论文的重要特征指标纳入预测模型中,以进一步提高预测效果。