独家原创:国内外跨库检索系统的比较

时间:2022-08-06 10:18:00

导语:独家原创:国内外跨库检索系统的比较一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

独家原创:国内外跨库检索系统的比较

摘要:选取国内外5个典型的跨库检索系统,比较分析各自的检索策略和功能特点,提出完善跨库检索系统功能的几点建议。

关键字:检索策略,数据库,跨库检索系统

近几年,国内的科技信息机构通过引进和自建数据库,使电子资源的数量具有相当规模,并在文献服务中成为主要的表现形式。在继续加强电子资源建设的同时,科技信息机构开始更加关注电子资源的管理工作,整合已有的资源,将不同类型、不同结构、不同环境、不同用法的各种异构数据库纳入统一的检索平台,使用户更方便、更高效地获取信息。

跨库检索又称为“整合检索”、“跨平台检索”、“统一检索”、“联邦检索”和“平行检索”等[1-2],它是指用户通过统一的检索界面,可以一次并发地对多个网络数据库(全文、文摘、OPAC)同时进行检索,并将各个网络数据库的检索结果去重、排序后归并,一次提交用户,是在实体资源分散的情况下实现“虚拟的资源整合”[3]。理想中跨库检索系统应该为用户提供一个简单、快速、全面的导航及检索系统,同时满足不同层次用户的需求。本文旨在分析介绍国内外几个在这一领域内居于领先地位的数据库检索系统,希望能够为国内同行提供一些参考和借鉴。

1国外跨库检索系统项目及其特点

尽管国外有一些软件生产厂商开发了商业化的跨库检索系统,例如,WebFeat公司的WebFeat,Fretwell2Downing公司的Zportal,ExLibris公司的MetaLib,Copernic公司的Aggregator以及Endeavor公司的ENCompass等。但是,很多数字图书馆项目都采用了自行开发的方式,根据本项目的具体需求来设计能满足用户需求的系统,属于“原创性”的成果,因而更能够反映跨库检索的最新动向和趋势。本文的内容以这些“原创性”的项目和系统为主。

1.1FlashPoint

美国新墨西哥州洛斯阿拉莫斯国家实验室研究图书馆(LosAlamosNationalLaboratoryResearchLibrary,LANLRL)从1998年起开始研究跨库检索问题,提出了“需要研发一种能供检索本馆可用的书目和全文数据库使用的单一接口”,并将其命名为FlashPoint.

FlashPoint的主要特点是:①提供主题检索途径(SubjectApproach),允许用户在检索之前指定要检索的领域(学科领域,而非某些特定的数据源),系统会据此自动地选择相关的数据库进行检索,以提高检索速度。②LANL过滤(LANLFilter)功能,利用这项功能,用户通过点击“LANL过滤”按钮,就可以检索出指定主题范围内LANL发表或与LANL有关的文献。③提供“检索进程”界面。用户提交了检索需求之后,系统向用户提供“检索进程”界面,以表示检索的进展情况,该界面大约每隔10秒钟更新一次,直至结果界面出现。

1.2SearchLight

SearchLight是CaliforniaDigitalLibrary(CDL)的项目成果之一。CDL是美国加利福尼亚大学的数字图书馆项目,于1997年启动,1999年1月正式提供服务。CDL于2000年7月公布了其跨库检索系统SearchLight。虽然CDL声称SearchLight还只是一个试验性系统,但它已能够支持Z39150和Web搜索,可以跨库检索55个数据源,包括商业数据库、OPAC以及CDL自建的数据库(杂志索引、全文库以及Web目录)。

与其他系统相比,SearchLight具有以下主要特点:

1)没有统一排序和统一呈现结果的功能。系统在图书(Books)、杂志索引(JournalIndexes)、电子杂志(ElectronicJournals)、全文资源(Full-TextResources)、参考资源(ReferenceSources)和Web目录(WebDirectories)6个范畴下按字顺显示结果。用户查看详细内容时,点击相应的条目进入具体的信息源,必要时,还可能需要在该数据源中重新执行一次检索式。

2)资源选择界面不是将所有跨库检索的数据源罗列出来由用户选择,而是提供一个二级分类体系,将数据源根据其内容分入相应的类目下(多重分类,一个数据源可根据其信息资源收录情况分入多个类),用户检索时不必关心要检索哪一个具体的数据源,只要选中相应类目前的检查框(Ckeckbox)并输入关键词即可检索到相应的结果。这种组织方式的优点是符合用户的检索习惯。

1.3NLMGateway

NLMGateway是美国国立医学图书馆(NLM)下属的李斯特•希尔国立生物医学交流中心(ListerHillNationalCenterforBiomedicalCommunications,LHNCBC)研发的跨库检索系统[3],是一个“从单一的界面在美国国家医学图书馆(NLM)的多个检索系统或数据库中进行搜索,以提供对多种NLM信息资源的‘一站式检索’(One-stopSearching)”的跨库检索系统。

NLMGateway在功能上有很多值得借鉴的地方。

1)NLMGateway将所有数据源分成期刊引文(JournalCitations)、书刊和视听资料的书目(Books/Serials/AvsCatalog)、用户健康信息(ConsumerHealth)、会议文摘(MeetingAbstracts)及其他(OtherCollection)5大类,而不是罗列数据源。用户可通过下拉列表框选择相应类目检索。检索结果也是按以上5类来加以显示,先显示出检索结果概要(每一类命中多少文献),用户点击相应的类来浏览该类下的结果。

2)词汇规范功能。用户可查阅检索词在医学标题表(MeSH)和统一医学语言系统(UMLS)中的定义、相关词及词间关系,以帮助用户选择更准确的检索词,提高检准率。另外,在用关键词检索时,系统会自动查阅MeSH和UMLS,对语词进行规范,例如用户用aids检索,系统还会自动检出包括acquiredimmunodeficiencysyndrome和HIV的文献。

3)检索式显示功能。跨库检索系统的一个重要功能是将用户输入的检索式翻译成不同数据源能理解的格式。由于不同数据源有不同的检索式构造规则,故同一检索式对不同的数据源来说有不同的翻译结果。NLMGateway可以按数据源显示翻译后的检索式,这对于用户以后专门使用某一数据源是很有帮助的。这一功能也是NLMGateway所独有的。

2国内跨库检索系统项目及其特点

2.1清华同方异构数据库统一检索平台USP

清华同方在数字图书馆管理系统(TPI)中提供了异构数据库统一检索平USP(UnionSearchPlatform)。USP是一个智能化的网络数据库检索平台,它通过一个统一用户界面帮助用户在多个网络数据库搜索平台中实现信息检索操作,是对分布于网络中的多种检索工具的智能化整合。

USP系统由以下三个模块组成:a.用户注册及引擎配置模块。负责实现用户个性化的检索设置要求,包括调用哪些搜索引擎、各个搜索引擎用户名称和用户密码的设置、检索结果显示风格等。b.统一检索模块。负责将用户的检索请求解释成满足不同搜索引擎本地化要求的格式,在不同搜索引擎中进行检索。c.检索结果显示模块。负责所有源搜索引擎检索结果的去重、合并、输出处理等工作。USP的工作原理:USP采用的是双层B/S结构体系,用户向USP发出检索请求,USP根据配置信息,把检索请求转换成对应于不同搜索引擎的实际检索请求,并向多个搜索引擎发出实际检索请求,搜索引擎执行检索请求后将检索结果传送回USP,USP把检索结果进行智能化整合,最后把检索结果传送给用户。

2.2国家科学数字图书馆(CSDL)跨库集成检索系统

CrossSearch跨库集成检索系统是国家科学数字图书馆(CSDL-ChinaNationalScienceDigitalLibrary)的子项目之一,该系统可以在实体资源分散的情况下实现“虚拟的资源整合”,从统一的检索入口检索多种异构资源,统一呈现结果,从而方便用户使用,节约用户检索时间,因而被许多数字图书馆专家认为是实现资源和服务整合的利器。

CrossSearch系统特点。a.检索结果的统一呈现。检索结果显示页面根据检索页面中用户选择的各种参数,包括排序标准、去重标准及每页显示的记录数进行显示。页面上提供了排序、去重、显示级别、每页显示的记录数及分页功能,用户可以根据自己的需要进行多种方式的显示,并提供二次检索功能。b.个性化的资源定制。跨库集成检索系统面向注册用户和非注册用户提供不同层次的服务功能。注册用户可以建立自己的主题,选择所需要的数据库资源添加到“我的数据库资源”列表。当用户执行检索时,可以从“我的数据库”中选择,从而避免每次检索时重复选择数据源;系统不对非注册用户提供资源定制、全文字段检索、查看全文等功能,非注册用户进入系统后,只能直接从“选择列表中资源”中选择数据源进行检索。

但是,CrossSearch系统无高级检索功能,且目前仍无法实现网络免费资源,如Google等的检索,且检索等待时间较长。

总结

通过以上国内外五个主要跨库检索系统的分析,从中可以看到:①跨库检索系统一般都支持通过HTTP协议检索数据源和获取检索结果,这一点与一般的元搜索机制大体相似,但跨库检索更注意检索协议,如Z39150、OAI等协议的应用;②随着集成数据库数量的增加,资源的分类和查询数据源的选择也成为了一个问题,以上的几个跨库检索系统,在正式的检索开始之前,会根据用户输入的检索词,推荐相关的数据源,这种推荐减少了查询的范围,能够提高检索效率;③在跨库检索系统中,由于集成了众多数据源,因此对于用户的检索词进行前期规范是一种提高检索效率的很好办法,NLMGateway提供了通过词表进行检索词规范的功能;④检索仅仅是信息服务的起点,跨库检索需要提供开放链接功能,将资源和服务实现链接,如链接到电子期刊等。

我们还发现,各跨库检索系统基本功能相似,各有特色,同时也有许多不足。其中值得注意和思考的问题主要有以下几点:

a.跨库检索正是应用户的需求而产生的,故它的设计更应该突出“以用户为中心”的理念,设计的过程应该在不断的改进,在迭代中使系统的功能得到完善。

b.大多数据库有其特定的使用范围和使用权限,限制了资源的利用效率。

总之,虽然跨库检索仅仅是最近几年出现的一种新的服务方式,但无论是在功能上,还是在技术上都有长足的发展,值得我们认真研究。

参考文献

[1]SADEHT.Thechallengeofmetaseaarching[J].NewLibraryWorld,2004,105(1198/1199):104-112.

[2]TALLENTED.MetasearchinginBostoncollegelibraries-acasestudyofuserreactions[J].NewLibraryWorld,2004,105(1196/1197):69-75.

[3]陈冰云.标准化跨库检索的设想[J].科技情报开发与经济,2005,15(6):231-232.