档案个性化检索论文

时间:2022-05-21 06:02:00

导语:档案个性化检索论文一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。

档案个性化检索论文

编者按:本文主要从个性化信息检索与服务;用户建模技术;用户模型的建立;用户模型设计进行论述。其中,主要包括:目前的档案检索系统一般以传统的关键词检索为主、在个性化检索中,检索条目与用户查询经历有关、个性化信息服务是既能对用户提出的要求提供最贴切的信息服务、对用户的兴趣、习惯、历史行为等方面进行分析从而获取其个性化信息、传统的检索流程变更为带着用户个性需求查找的过程、用户信息对用户模型的性能是至关重要的、根据用户浏览行为的自动用户建模方法构建出来的用户模型只能反映用户感兴趣或不感兴趣的信息等,具体请详见。

论文摘要:本文说明了个性化检索技术的发展,分析了个性化检索的内涵和特点,提出了用户兴趣模型的建立与更新的方法。个性化信息检索是指根据用户的兴趣和特点进行检索,返回与用户需求相关的检索结果。

论文关键词:个性化信息检索用户模型

目前的档案检索系统一般以传统的关键词检索为主,这种检索方式虽然可以在一定程度上满足用户的需求,但是由于检索方式的限制,这种检索的结果仅仅是与检索词字面意义或某层含义相匹配,对于用户所需要的其他的概念和相关的成分就无能为力了。因此个性化检索就成为解决这一问题的有效途径。个性化的实质是针对性,即对不同的用户采取不同的服务策略,提供不同的服务内容。

一、个性化信息检索与服务

个性化信息是能够满足用户个性需求的信息。个性化信息检索是指根据用户的兴趣和特点进行检索,返回与用户需求相关的检索结果。它是一种能体现用户个性化特征,满足个性化需求,培养个性化趋势的检索方法。在个性化检索中,检索条目与用户查询经历有关,既可以是内容检索,又可利用与其它事件的关系来检索,即是以用户检索行为为中心的检索。这也是个性化检索与一般文档检索的区别[1]。

个性化信息服务是既能对用户提出的要求提供最贴切的信息服务,还能依据个体个性特征,主动收集个体可能感兴趣的信息,甚至预测个体可能的个性发展,提前收集相应的信息,最后以个性化方式显示给个体。这里包括两方面内容:个性化信息和个性化服务。个性化信息是反映个体个性特征的一切信息,同时还包括个体特定的信息需求组合。个性化服务包括服务时空的个性化,服务方式的个性化和服务内容的个性化[3]。对于这些个性化服务首先要建立对用户的描述,然后才能据此提供针对不同用户的个性化服务。用户模型是个性化服务的基础和核心[4]。用户模型作为个性化服务的基础和核心,因此用户模型的质量直接关系到个性化服务的质量。只有当用户的兴趣、偏好和访问模式等用户信息可以很好地被系统“理解”时,才有可能实现理想的个性化服务。从用户信息中构建用户模型,也就成为了个性化服务的核心和关键技术之一。

个性化服务系统中的用户模型不是对用户个体的一般性描述,而是一种面向算法的、具有特定数据结构的、形式化的用户描述。相应的,用户建模是指从有关用户兴趣和行为的信息,如浏览内容、浏览行为、背景知识等,归纳出可计算的用户模型的过程[5]。

二、用户建模技术

为不同的用户提供有针对性的服务,需要对用户的兴趣、习惯、历史行为等方面进行分析从而获取其个性化信息。对用户信息进行结构化描述,构建反映用户特点的需求模型,这一过程称为用户建模。用户建模是实现个性化检索服务的基础和核心[6]。

不同的用户各自面临着互不相同的检索问题,不加区分地给不同的用户提供相同的结果,必然满足不了用户的检索需求。要提高用户的满意度,就要把握用户的特点,建立用户模型,对用户的信息、兴趣及历史查询行为进行管理,对不同用户进行不同的学习,这样就可以针对特定用户提供准确的信息。为用户建模可以有效解决不同用户对相同提问信息的不同深度和广度的要求,在加入用户模型之后,传统的检索流程变更为带着用户个性需求查找的过程,同时反馈流程也将针对用户的意见进行,以提供更加准确的检索服务。通过建立用户模型,可以管理用户的背景信息,在查询一些跨领域信息的提问时,考虑用户背景信息,有助于更加针对性地提供用户真正关心的信息。通过用户模型对用户兴趣进行描述,同时记录用户的查询行为,对用户的查询历史和兴趣进行管理。

一般来说,用户访问Internet的过程共包括以下六种信息:

(l)用户使用搜索引擎查询时输入的关键词;

(2)用户维护的书签(Bookmark);

(3)用户浏览的页面;

(4)用户浏览的行为,包括用户在每个页面上的驻留时间,对每个页面进行的操作(如保存、打印页面、将页面存入书签等),鼠标和键盘的操作及用户浏览网页时眼睛的移动、表情的变化等;

(5)用户下载、保存的页面和资料等;

(6)用户手工输入的其他信息。

从理论上说,以上六种信息都可作为用户建模的信息来源,但用户信息对用户模型的性能是至关重要的,因此在建模时要慎重选择。以下是对这六种信息的分析。

用户输入搜索引擎的查询关键词虽可反映用户的兴趣,但它却不适合单独用于用户建模,因为用户查询的关键词一般都比较简单,无法来描述用户的兴趣,查询关键词是用户检索信息的起点,但不是检索信息的全部,因此查询关键词对用户兴趣与意图的反映并不全面。

书签(Bookmark)能较好地反映用户的兴趣,这是因为,用户会把感兴趣的或重要的页面保存在书签(Bookmark)中,但是相对于用户浏览的页面来说,书签(Bookmark)中的页面数是相当少的,并且用户并不一定会把自己感兴趣的都保存在书签(Bookmark)中,因此书签(Bookmark)构建的用户模型也不能够全面地反映用户的兴趣。

用户浏览的页面可以全面地反映用户的兴趣,用户浏览的页面由系统自动保存,可实现自动用户建模。缺点是用户浏览的页面中可能包含用户不感兴趣的页面,因此在使用用户浏览页面内容构建用户模型时应避开噪声页面。

用户浏览行为可以反映用户的兴趣,如用户保存某个页面,或者在某个页面上驻留的时间较长,说明用户对该页面感兴趣。但在建模时由于浏览行为对用户兴趣的体现需要以浏览页面为载体,因此用户的浏览行为必须与浏览页面相结合才能构建用户模型。

用户下载、保存的页面资料等也能较好地反映用户的兴趣,因为只有用户认为感兴趣或重要的文档,用户才会下载和保存,这些经用户保存、整理的文档能够反映用户长期关注的主题,这种信息为用户的背景知识。

用户手工输入的有关用户兴趣特点的信息也可作为用户建模的数据来源之一,如用户感兴趣主体的关键词、对浏览页面的感兴趣程度等,在自动用户建模技术尚不成熟的情况下,用户手工输入的信息是用户建模的重要来源。

综上所述,在以上六种信息来源中,用户浏览的页面和浏览行为最能全面地反映用户的兴趣;用户的Bookmark和保存整理的文档虽不能全面地反映用户的兴趣,但能很好地反映用户关注的信息;用户输入搜索引擎的查询关键词不宜单独用于用户建模。

一般常用的用户建模是指根据用户的浏览内容和浏览行为自动构建用户模型、建模时无需用户主动提供信息的一种建模方法。根据用户浏览行为的自动用户建模方法构建出来的用户模型只能反映用户感兴趣或不感兴趣的信息,得不到用户具体感兴趣的主题,其实质是一种粗兴趣粒度用户模型。另一种自动用户建模的思路是根据用户浏览的内容进行兴趣聚类,找出用户的兴趣,构建用户模型。通过兴趣聚类可以得到用户模型的细兴趣粒度表示。在现有的用户建模方法中,用户的浏览行为仅能得到用户对相应信息感兴趣与否的推断,得不到用户感兴趣的程度,而用户对相应信息的感兴趣程度有助于得到用户对关键词和兴趣主题的感兴趣程度,从而建立更为详细、准确的用户模型,也有利于实现高性能的用户模型的遗忘与更新,提供更高质量的个性化服务。

三、用户模型的建立

在信息检索系统中,一个用户模型的建立过程涉及到以下内容:

(1)用户兴趣的表示:就是以何种形式来表征用户的兴趣。为了便于进行信息匹配算法,用户的兴趣通常与资源表示具有同样或相似的形式。其次,一个用户可能有多个兴趣可能同时存在,那么就需要在模型中将多个兴趣同时表达出来。

(2)用户模型的更新:就是采用何种算法更新用户模型。在信息检索系统中,就是如何根据用户的反馈信息更新用户的兴趣。

(3)信息过滤算法:就是如何根据用户模型对未过滤的信息进行匹配,判断是否符合用户需求的算法。过滤算法与资源表示、用户兴趣的表示密切相关。

用户兴趣模型是指对于用户感兴趣的信息的可计算描述,是所有其它智能化功能的基础。一般用户兴趣模型采用词频法,其中的用户兴趣用二元组表示(兴趣词条、兴趣权重),在词频中考虑到各个词条在文档中的不同位置,体现了词条的不同重要度;以及各文档在网页超链关系中引用与被引用情况,又体现了文档的不同重要度等因素。

用户兴趣的生成与更新算法是整个用户兴趣模型的核心内容。假设用户输入的检索词条经过词干提取(对中文还有词条切分)等预处理技术之后为q(q1,q2,…,qk),在初次检索之后,返回一些查询结果,得到一组页面D(d1,d2,…dn)。首先计算词条qi的权值wi,我们采用词频法,即计算词条qi在文本D(d1,d2,…dn)中出现的频度sij,j=1,2,…n,这些频度的总和来作为词条的权重,即wi=,这样我们就得到两个向量q(q1,q2,…,qk)和w(w1,w2,…wk),将兴趣二元组(q,w)加入到用户词典中。用户词典是由词条和权重组成的二元组的集合。

四、用户模型设计

基于用户模型设计的信息检索系统与一般的信息检索系统的最大区别在于对从用户界面接收的用户查询,将首先利用用户模型予以分析,同时结果的匹配、过滤也需要基于用户模型进行。通过学习机制以及推理机制,一方面学习了用户在信息需求上的偏好,另一方面,也可以对用户需求进行推导、归纳。

【参考文献】

[1]赵静.个性化信息检索及功能模型.图书与情报,2004(l).

[2]应晓敏等一种面向个性化服务的无需反例集的用户建模方法.国防科技大学学报,2002(3):67-71

[3]杜春光.个性化信息服务的模式研究及策略分析[J].国家图书馆学刊,2005;(2):63-66..

[4]张玉峰等.基于Agent的个性化信息服务模型研究[J].情报学报,2001,20(5):555-559.