搜索引擎研究范文
时间:2023-04-02 18:55:54
导语:如何才能写好一篇搜索引擎研究,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
1.“确解用户之意,切返用户之需。”
2.“门户网站都想着是怎样省钱,而不是怎样花钱来买技术。”
3.“搜索引擎不是人人都能做的领域,进入的门槛比较高。”
4.“只是优秀还不够,最好的方式是将一件事情做到极致。”(google十大真理)
5.“做搜索引擎需要专注”“对于一项排到第四的业务,门户很难做到专注。”
6.“用户无法描述道他要找什么,除非让他看到想找的东西。”
7.“所谓楔形,其实就是个倒三角,倒三角的尖端部分代表搜索技术,中部是基于技术的产品应用平台,最上端是对整个搜索引擎用户人群文化的认识和理解,以及现代公司竞争最关键也最捉摸不定的所谓品牌。”“楔形”蕴涵的另一个意义是:楔子要打到墙里,尖端是否锐利很重要,但楔子的破坏性有多强,究竟能在墙面挤压出多大的空间,其中端、后端的沉稳与厚重才是关键。
搜索引擎的技术和理念都是需要时间和经验的积累的,更是需要长期不断的完善进步的,绝对不要认为可以一蹴而就,要达到一个相对成熟领先的搜索引擎从开始到领先的周期一般需要是四年。着急不得。原因是因为搜索引擎太复杂,而且“用户无法描述他要找什么,除非让他看到想找的东西。”一切都需要摸索,尝试,问题需要一个一个解决,用户的需要得一点点的挖掘。搜索引擎是一个产品,给用户提供服务的产品,需要长期的不断的改进升级调整才能持续不断的提用户体验,需要满足用户不断增长并且变化的需求、需要不断适应网络的变化。这是因为网络环境是不断变化的、网民的需求也是不断变化的。千万不要把搜索当成项目来做,做完了撂那让用户去用那你肯定没戏。在搜索引擎领域是讲体验的、新的引擎如果用户体验一旦整体上有领先一年以上的差距并且持续2年,那前期的领先者的优势就荡然无存,因为搜索引擎的用户转移成本相对而言是比较低的而且口碑是最佳的传播方式。如果一个搜索引擎不能持续不断的技术创新理念创新,那对于这个搜索引擎来说就等于死亡。我们一般形容搜索引擎的领先是以时间计算的。比如:中搜离百度整体差距×年,百度离google的整体差距×年,……只要你能在用户体验上保持一年的领先优势持续2年,不需要炒作,一切纷至沓来。在用户体验面前,任何的炒作都显得很渺小。作垂直搜索引擎,麻雀虽小,但是五脏俱全。无论理念文化、产品管理、应用、技术都和搜索引擎的楔形理论没有什么区别。所以要做好一垂直搜索必须解决这几个方面。
楔形的尖:垂直搜索技术。
垂直搜索技术主要分为两个层次:模板级和网页库级。模板级是针对网页进行模板设定或者自动生成模板的方式抽取数据,对网页的采集也是针对性的采集,适合规模比较小、信息源少且稳定的需求,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小。网页库级就是在信息源数量上、数据容量上检索容量上、稳定性可靠性上都是网页库搜索引擎级别的要求,和模板方式最大的区别是对具体网页不依赖,可针对任意正常的网页进信息采集信息抽取……。这就导致这种方式数据容量上和模板方式有质的区别,但是其灵活性差、成本高。当然模板方式和网页库级的方式不是对立的,这两者对于垂直搜索引擎来说是相互补充的,因为技术只是手段,目的是切反用户之需。本文谈及的技术主要是指网页库级别垂直搜索引擎技术。搜索引擎的确是一项对技术要求比较高的应用,几年前相关的人才也比较少。现在搜索技术人才多了,相关的技术和技术的应用得相对以前而言更加成熟,但是竞争也更加激烈了。
垂直搜索大致需要以下技术:
1.信息采集技术
2.网页信息抽取技术
3.信息的处理技术,包括:重复识别、重复识别、聚类、比较、分析、语料分析等
4.语意相关性分析
5.分词
6.索引
信息采集技术,垂直搜索引擎spider和网页库的spider相比应该是更加专业,可定制化。可定向性的采集和垂直搜索范围相关的网页忽略不相关的网页和不必要的网页,选择内容相关的以及适合做进一步处理的网页深度优先采集、对页面有选择的调整更新频率……,采集可通过人工设定网址和网页分析url方式共同进行。垂直搜索对信息的更新有着特别的要求,根据这些特点可以从以下几点考虑1.信息源的稳定性(不能让信息源网站感觉到spider的压力)2.抓取的成本问题3.对用户体验改善程度。根据以上几点制定一种比较好的策略,要做到恰到好处。策略上可以评估网站/网页更新的系数、网站/网页的重要系数、用户点击系数(或曝光系数)、网站稳定系数……,根据这些系数来确定对这些网站/网页更新的频率。再由于新信息和更新了的信息list页面前面或者首页,所以对网页进行很好的分级可以以低成本很好的解决更新问题,系数比较低的网页一月update一次,稍微高点的一周update一次、中等的几天到一天一次、高的几小时到几分钟一次。类似搜索引擎的大库、周库、日库,小时库……基于视觉网页块分析技术,模拟IE浏览器的显示方式,对网页进行解析。根据人类视觉原理,把网页解析处理的结果,进行分块,再根据需要,对这些块进行处理,如:采集定向、介绍抽取和一些必要的内容的抽取正文抽取……结构化信息抽取技术,将网页中的非结构化数据按照一定的需求抽取成结构化数据。有两种方式,简单的就是模板方式,另外就是对网页不依赖web结构化信息抽取方式,这两种方式可以互取长处,以最简单最有效的办法满足需求。垂直搜索引擎和通用搜索引擎最大的区别就是对网页信息结构化抽取后再结构化数据进行深度的处理,提供专业的搜索服务。所以web结构化信息抽取的技术水平是决定垂直搜索引擎质量的重要技术指标。其实web结构化信息抽取在百度、google早已经广泛应用了,如:MP3、图片搜索、google的本地搜索就是从网页库抽取出企业信息,添加到其地图搜索中的,google通过这种技术正在颠覆做内容的方式。同样的技术应用还在qihoo、sogou购物、shopping等各种应用中体现。简单的语法分析,简单的语法分析在搜索引擎中非常重要,可以通过简单的语法分析来改善数据的质量,低成本的获得某类信息,改善排序,寻找需要的内容……信息处理技术,信息处理包括的范围比较广,主要包括去重、聚类、分析……,这根据需要相关的技术就非常多。
数据挖掘,找出您的信息的关联性对于垂直搜索来说非常重要,有效,可以在这些相关性上为用户提供更细致的服务。
分词技术,面向搜索的分词技术,建立和您的行业相关的词库。注意这是面向搜索的分词,不是面向识别和准确的分词。就这个工作安排十几个人不停的维护也不会嫌多。索引技术,索引技术对于垂直搜索非常关键,一个网页库级的搜索引擎必须要支持分布索引、分层建库、分布检索、灵活的更新、灵活的权值调整、灵活的索引和灵活的升级扩展、高可靠性稳定性冗余性。还需要支持各种技术的扩展,如偏移量计算等。其它技术,略。
垂直搜索引擎的技术评估应从以下几点来判断
1.全面性
2.更新性
3.准确性
4.功能性
锲形的中和尾:产品应用平台和对搜索引擎文化理念的理解
对于任何一个产品来说,产品的模式是最重要的,技术只是手段、工具、途径。用户不会关心你的技术是如何实现的、更不会关心你的技术水平是什么样的,只要用户感觉:这就是我需要的东西,很好用,而且是最好用的。那么你的产品就OK了。考虑一个产品的模式需要考虑的东西很多,如:用户需要什么?需求有多大?能不能完整的实现用户的需求?需要什么资源?怎么做到?竞争分析?差异化?根据自身情况能做到什么程度?怎么样保持领先优势?能否收到钱?怎么样收钱?怎么样推广?需要多少时间?如何保证在时间窗口期内有效完成进度?如何分步分期优先完成用户最需要的需求?如何建立有效的反馈机制让我可以了解用户的需求变化和挖掘用户自己也无法表达的需求?如何进一步改善?分期需要多大的投入?如何降低整体成本和前期成本?如何分期投入?投资回报比?周期?……
1.确解用户之意
任何应用最难的就是了解用户的需求,甚至是用户自己都不知道的需求。
建立完善的、快速的用户意见反馈机制和用户需求调查机制,所有人都应倾听用户的牢骚、建议。不断的分析、修改。
2.切返用户之需
满足用户的需求,一切纷至沓来。不需要炒作,请把您的资源多多花费在为用户提供良好的体验上来。
3.不要干扰用户的意图,培养用户的使用习惯和技巧
有一个故事是这样的:还在yahoo使用google的搜索的时候,华尔街的几个分析师来评估这两个搜索哪个好用,去掉logo。结果一致评价yahoo的检索效果好。因为yahoo是使用的google检索结果,并且对热点关键词进行了人工调整。但是一转身这些分析师回到自己的电脑边查询东西,不约而同的打开了google。
4.细节决定成败
信息不是越多越好,在海量的信息时代,如果不能妥善的整理信息,那就等于没有信息。每个页面的每个字,每个像素、图片的放置都值得花费时间去琢磨。把用户最需要的放在最显眼的位置,次需要的放置到更多页面,不需要的扔掉。
5.将一件事情做到极致
不仅仅要关注80%的用户的80%的需求,20%的用户的20%的需求是您成败关键所在。
6.专注
这么多需要你解决的问题,你还能干其它事情?对于一个排在第四的业务你是没有机会的。所以垂直搜索引擎的成功肯定不是具备良好资源的行业门户、也不会是大搜索的公司,必然是专注于某一行业的搜索引擎公司。因为只有专注,才能将一件事情做到极致。
7.创新
失败不要紧,但是如果搜索引擎公司没有创新,那这个搜索引擎公司必然面向的就是死亡。
8.需要完全掌握主要技术。
一个核心业务不可能通过外包手段来解决技术问题。虽然找个大公司外包技术看起来很美丽,很快速,甚至成本比较低。但是这是在毁灭你的将来。因为这是产品,不是项目。产品是需要不断完善调整的,用户的需求也是变化的需要挖掘的,互联网也是变化的,你外包技术绝对不可能做到灵活、及时满足各种变化。在和竞争对手竞争的时候您如何保持您的领先优势?(前文说了,如果被对手保持领先一段时间,那么你之前的领先优势就荡然无存)。这里还没有考虑竞争问题,购买其它搜索引擎公司的技术,对方会不会把真正的技术毫不保留的卖给你。再说,卖你你你能搞懂吗?技术再困难也要自行解决。否则你注定失败。最好的办法就是购买核心技术缩短研发周期、成本、风险,再在这个核心技术进行自主研发。这是垂直搜索的技术门槛,看似不高,其实很高。
对于技术问题可以迂回解决,用最简单的技术满足用户最迫切的需求。用户是不会关心技术实现的。模板方式可以是网页结构化信息抽取技术的补充。对于可行的应用早期采用模板技术也是不错的选择。比如chinabbs就做的很好,用户的主要需求是要浏览到好的帖子,所以加强内容的建设,找高水平的编辑做推荐,而且在界面和易用性上也很不错。领先qihoo。技术方面他们初期采用的应该是模板自动生成方式采集论坛信息,比qihoo技术水平差,但是这目前不是用户需求的关键,而且qihoo技术水平层次虽然高但是如果不成熟,体现给用户的东西未必就强。Chinabbs接下来再解决技术难点,在技术上有提升,那么他就能持续保持领先优势了。(但是话又说回来,招聘好的编辑很容易,技术要提升一个层次并且成熟很难,而且很耗费时间,当然用户习惯和知名度也是需要很长时间培养的)
9.用最简单的技术实现用户最迫切的需要
技术重要,但是技术的使用得当更重要,技术是为用户体验服务的。只要能满足用户需要,什么技术都可以,简单不代表不行,用最简单的技术实现用户最迫切的需要。百度的整体技术我认为离google中文至少有1年以上差距,很多方面差距更大,但是百度的效果比google好,原因就是将简单的技术用于实现用户迫切的需求。举个我身边的例子来描述简单的技术实现需求:我把我们的基于视觉的网页块分析的正文抽取技术演示给一好友看,好友看后说:我们也实现了。我大惊,他们不是做搜索的,居然也实现了!他告诉我他们实现的方法后,我再次吃惊,深感简单的技术也可以很好的解决问题,虽然不完全解决,但是能满足自己的需求就好。他们的解决方法是:对网页的html进行分析,将整段文字中没有html代码的文字提取出来,这就是正文。(惊叹!!如此简单!!注:他们的信息源都是这样的格式)
10.根据中国本土互联网特点,强力的antispam,对信息进行清洗。
11.很多人误解垂直搜索就是把相关的行业网页做一个采集,进行正文抽取,实现搜索,完成信息册查询。其实并非如此。如果这样无法和网页搜索竞争,网页搜索很容易就可以将网页库按行业分类、按地区分类。
篇2
随着互联网技术和互联网应用系统的快速发展,各个领域的互联网应用系统都已经积累了海量的Web数据,包括产品数据、用户数据、评价数据、关联数据、状态数据等等。这些数据不仅内容极其丰富,而且很大程度上都开放给互联网用户,可以免费的访问、下载和处理。这就为进一步集成和开发这些Web数据的潜在价值,建立增值应用提供了重要基础。聚类搜索是近年来发展最为迅速的互联网数据集成和增值技术。聚类搜索是在垂直搜索基础上发展起来的新型搜索技术。垂直搜索是主要针对行业的专业搜索,侧重于某一行业领域,其目的是使用户能够更加方便地找出所需的专业信息。而聚类搜索是为了进一步提高搜索的精度使其符合用户的搜索习惯和兴趣,在搜索引擎的搜索结果中进行聚类,把搜索出来的信息进行分类处理,将使信息资源更加清晰明了。
目前国内对聚类搜索引擎的综述主要见于文献[1]和文献[2],虽然这两篇文章对聚类搜索引擎进行了很好的综述和分析,对聚类搜索引擎的形成和发展过程进行了说明,并对主流聚类搜索系统进行了测评和分析,但是对于聚类系统的功能分析还不够详尽,对于聚类搜索引擎未来的发展没有给出明确的定位。
本文首先给出了典型聚类搜索引擎系统的基本工作流程,对聚类搜索引擎的发展历史和现状进行了概括式综述,然后从聚类对象、聚类功能和聚类算法三个角度对聚类搜索引擎进行研究,并全面分析了若干著名聚类搜索引擎。
本文结构:第1节介绍聚类搜索引擎的发展现状;第2节对聚类搜索引擎的功能进行分析;第3节对典型聚类搜索引擎进行综述;第4节描述聚类搜索引擎的发展趋势;第5节总结全文。
1聚类搜索引擎的研究现状
1.1聚类搜索引擎概念和工作过程
所谓聚类搜索引擎,就是运用聚类技术对搜索结果进行自动聚类分析的搜索工具。其特点是去重性强、分类性强、汇集性强,即可以及时去除重复信息,对搜索的结果进行分门别类,并可以汇集各大知名搜索引擎的信息资源。目前,典型的聚类搜索引擎的基本工作步骤为:①依据用户查询的关键字,从一个或多个搜索引擎获取搜索结果;②对搜索结果进行预处理,过滤掉重复、无效信息;③将文档中关键短语作为特征提取出来生成聚类标签;④将文档分配到生成的聚类标签下;⑤将聚类后的搜索结果进行排序并显示给用户。
1.2国内外聚类搜索引擎的发展现状
搜索引擎的发展阶段总共经历了三个阶段[3],其中第1代搜索引擎主要是基于人工分类的通用搜索;第2代主要依靠机器进行自动爬取和分析,利用链接分析技术实现更为准确的搜索,如Google、百度等;第3代搜索引擎更加体现了智能化、互动式和人性化。功能包括自动聚类、去重、用户习惯记忆等方面,是未来搜索引擎主要的发展方向。
近几年,国际上对聚类搜索引擎系统的研究日渐火热,已经出现了一些知名的聚类搜索系统。其中,Scatter/Gather系统[4]是第一个在搜索引擎上使用聚类方法的系统;Vivisimo[5]是一种商业化聚类搜索引擎,符合用户使用习惯,搜索效率高。基于Java的开源Carrot2聚类搜索引擎[5]可自动的把搜索结果归类到相应的语义类别中,它的一个亮点是速度和易用性的提高。中文搜索领域,早期比较有实力的聚类搜索引擎有Bbmao,Bbmao搜索系统推出了去重功能,为网民解决了大量阅读重复信息的烦恼。Bbmao的聚类功能,能够提高查找信息的效率,它还具有云集各大搜索引擎结果的功能,同时完成海量信息的分门别类。近期出现的baigoogleledu综合了谷歌、百度两大搜索引擎。其基本出发点是两大搜索引擎的搜索结果的很大的差异性。这类系统对搜索结果进行聚类分析,在一定程度上缓解了广告泛滥的局面,使用户更便捷地找到需要的信息。
有关国内外聚类搜索引擎的相关技术,主要有聚类分析、聚类算法、中文信息处理等技术。Anton等人[7]致力于把分类体系引入评估体系来评价聚类效果质量的研究。Sudipto Guha等研究人员[8]应用概念关联代替传统的计算欧式距离,来衡量数据之间的相似度,从而确定聚类,达到了很好的效果。
国内一些学术组织和团体很早就开始对自动文本分类、聚类领域等相关内容进行研究,从“天网”和“网络指南针”开始北京大学和清华大学就开始致力于网页的聚类技术研究。此外,北京科技大学的麻雪云提出了一种基于关键名词短语聚类的中文搜索结果聚类方法[9],利用百度、谷歌、雅虎三大搜索引擎来获取互联网信息,对搜索结果进行聚类分析。国防科技大学的肖坤对STC算法和Lingo算法进行了比较,并对STC算法进行了改进,设计实现了一个面向校园网聚类搜索引擎系统[10]。
2聚类搜索引擎的功能分析
2.1聚类对象分析
现有聚类搜索引擎的聚类对象主要包括三类数据:商业数据、评价数据、社交数据。
商品数据主要包括对服装、电器、化妆品等数据信息进行分类整理,例如用户在淘宝网输入“牙膏”关键字,在网页上立马显示出“功能”、“品牌”、“产地”等分类信息,并按照销量、价格、信用进行了排序,对商品的聚类分析清晰明确。评价数据主要包括论坛对相关主题的讨论信息,博客的交流信息,商业网站对商品的满意度评价信息等。大连海事大学的鲁明羽、姚晓娜等人提出一种基于模糊聚类的网络论坛热点话题挖掘算法,通过分析帖子和用户间的影响力传递,来判断是否为焦点人物和热门话题[11]。社交数据主要包括社交网络注册用户个人资料信息、用户关注度信息、用户之间交互信息等社交数据资源。社交数据隐含了大量可以用于聚类的关联信息,对实现智能和个性化聚类搜索具有重要意义。此外,聚类对象按数据类型还可以划分为文本数据、多媒体数据等。
2.2聚类功能分析
聚类搜索引擎的聚类功能主要有智能聚类、去重、多媒体、覆盖性等能力。
智能聚类:聚类搜索引擎大多具有这项功能。目前做得最好的如Vivisimo系统,它最大的特色是会对搜索结果自动分类,采用专门开发的启发式算法来集合或聚类原文文献。
去重:去重可以取掉大部分的广告网页并节省掉用户的选择时间,是十分实用的一项聚类功能。国内的比比猫的去重功能非常出色,在用户获得多个搜索引擎的搜索结果后,比比猫可以自动为用户获取最有搜索结果并取掉重复的信息。
多媒体:除了文本聚类,聚类搜索引擎还关注视频、音频等多媒体信息进行聚类的功能,商业化、集成化、多媒体化的气息更加浓厚。搜狗音乐推出了新版的聚类页面,可视化强,用户输入音乐名称,将获得全新的聚类结果,该结果首先按照音频特征聚类,再按照文本信息聚类,保证搜索界面显示的音乐相关度最高。
覆盖性:聚类搜索引擎一般基于一些大型通用搜索引擎的数据资源,这样能够保证搜索的结果覆盖全面,可聚类的对象内容丰富。
2.3聚类算法分析
聚类搜索引擎的聚类算法主要有层次聚类、树状聚类、网状聚类、圆形聚类。其中Carrot2、Clusty(clusty.com)、iBoogie( iBoogie.com)等系统使用层次聚类的方法,按照来源及站点进行聚类。PinkySeach[12]和Mnemomap(mnemomap.org)系统是使用树状结构的聚类算法,将聚类的结果以列表的形式展示出来。UJIKO系统(ujiko.com)是使用圆形结构的聚类算法,它将搜索结果聚类后按照主题自动分类成图形界面显示出来。Quintura系统(quintura.com)是使用网状结构的聚类算法,是通过标签云的形式将在语义上相关的词聚类,构成网状链接。
3典型聚类搜索引擎
3.1 Vivisimo系统
Vivisimo系统[5]的基本步骤包括:首先系统自动地、并行地向多个大型搜索引擎提交查询请求,然后汇集每个查询返回的结果,对查询的结果进行聚类分析,经过去重、合并、分类等步骤后,通过输出处理显示给用户。Vivisimo的聚类对象是从多个搜索引擎返回的搜索结果,主要是文本信息。Vivisimo的聚类功能主要是文本的聚类,通过对文本内容进行搜索和归类分析,vivisimo的软件可以使用户从没有预先标记或分类的资源中整合、分类内容。Vivisimo采用启发式算法,借鉴了人工智能的理念,对检索的结果进行聚类,可以把文本信息自动地分成等级排序的类目,它的每一步都是自动化的,不需要人工干预。
目前Vivisimo的商业应用十分广泛,它对信息的分类很体贴,具有人性化。其细致的检索结果显示方式使它成为了业界的精品,连续多年成为“最佳元搜索引擎”。但是,Vivisimo于没有自身的数据资源库,依附于其他大型搜索引擎,独立性较差,检索功能有待加强。
3.2 Carrot2系统
Carrot2是基于Java开发的开源聚类搜索系统[6],主要用于对搜索结果进行聚类。与Vivisimo相似,首先也是用户输入关键字在Bing、baidu、google等知名搜索引擎进行搜索,然后对返回的搜索结果进行聚类,并通过树形的分类图进行显示出来。Carrot2的聚类对象主要是各大搜索引擎返回的搜索结果,其通过文档聚类平台workbench,对搜索的数据进行聚类分析,并通过文档聚类服务器DCS,将聚类结果作为REST服务呈现。最后,Carrot2以WebApp方式将聚类结果作为网络应用呈现给终端用户。Carrot2采用的聚类算法主要是Lingo(基于奇异值分解的索引结果聚类)算法和STC(Suffix Tree Clustering)后缀树聚类算法。
目前Carrot2支持的聚类算法较多,代码开源可以进行版本的更新和改进。该系统应用广泛、可移植性较好。但是Carrot2中文分词效果不好,可视化效果不佳。
4聚类搜索引擎发展趋势
文献[1]通过对大量搜索引擎的评测,发现独立性差、专用算法欠缺、搜索速度慢等一系列问题,但该文主要对搜索结果的聚类方法进行了评测,对聚类搜索引擎的趋势的分析也主要侧重于聚类方法。本文认为聚类搜索引擎未来将向数据海量化,链接社交化,聚类综合化三个方向发展。
4.1数据海量化
现阶段的聚类搜索由于数据集较为单一,聚类算法过于老旧,造成呈现给用户的检索结果数量少,内容贫乏,这样必然影响聚类搜索的发展壮大。所以未来聚类搜索必然要向数据海量化发展。近期,美国互联网公司“耶宝”日前推出一种更具人性化的搜索引擎,有别于当今主流搜索引擎网站提供的单维搜索,并非一般的罗列搜索结果,而是通过对搜索的词条和海量的网页的内容进行分析,自动对搜索结果进行聚类和分类,为用户提供丰富而直观的结果。
4.2链接社交化
在搜索引擎中引入社交元素,由于目前Web社交网络形成了一个巨大的Deep Web(针对网络爬虫而言),而这个数据量对搜索引擎来说是非常大而且有用的,搜索引擎作为用户获取信息的主要渠道,势必需要这些用户活跃度和新鲜度很高的数据资源。由于社交数据中蕴含着大量数据之间的潜在链接,因此基于社交数据进行聚类搜索可望更好满足用户的个性化需求。
4.3聚类综合化
聚类的多元化、跨领域、综合化将是新型聚类搜索的重要特点。局限于单个应用领域的聚类搜索已经难以适应需要,跨领域聚类将是未来聚类搜索面临的主要挑战。
5结束语
随着Web2.0的蓬勃发展,网页数量成级数增长,为了使互联网用户更加方便、快捷的得到需要的信息,聚类搜索代表着一种重要搜索引擎的发展方向。随着聚类搜索引擎的算法和数据源的逐步完善,聚类搜索引擎技术将得到迅猛发展和更为广泛的应用。(来源:电脑知识与技术 编选:)
参考文献:
[1]苏建华,张灿,聚类搜索引擎研究[J].新世纪图书馆,2009(6):72-75.
[2]苍宏宇,谭宗颖,聚类搜索引擎发展现状研究[J],图书情报工作,2009,53(2):125-127.
[3]沈贺丹,潘亚楠,关于搜索引擎的研究综述[J].计算机技术与发展,2006.16(4):147-152.
[4] Banos R,Gil C,Reca J,et,al.Implementation of scatters search for multi-objective optimization:A comparative study.Computational Optimization and Applications,2009,42(3):421-441.
[5] Koshman Sherry,Spink Amanda,Jansen Bernard.Web Seaching on the Vivisimo Search Engine[J].Journal of the American Society for Information Science and Technology,2006,57(14):1875-1887.
[6] Carrot2 Framework.Carrot2:Design of a Flexible and Efficient Web Information Retrieval Framework[C].Third International Atlantic Web Intelligence Conference(AWIC2005),Lodz,Poland,2005:439-444.
[7] Anton V Leouski,W Bruce Crift.An Evalution of Techniques for Clustering Seach Results[J].Computer Science Depart-ment,1996:1-19.
[8] Stdipto Guha,Rajeev Rastogi,Kyuseok Shim.ROCK:A Robust Clustering Algorithm for Categorical Attributes[J/OL].[2008-08-12].
[9]麻雪云,基于聚类的元搜索引擎设计和实现[D].北京:北京信息科技大学,2008.
[10]肖坤,面向用户兴趣的校园网聚类搜索引擎的研究与实现[D].长沙:国防科技大学,2010.
篇3
关键词:比较购物;电子商务;比较购物搜索引擎
中图分类号:F49
文献标识码:A
文章编号:1672-3198(2010)19-0330-02
1 引言
随着Internet的不断发展,电子商务这一全新概念急速兴起,传统直效营销的许多渠道已被网上购物所取代。然而,为了获得最实惠的商品,网上购物消费者必定会登陆不同的网上购物网站,对同一商品进行比较,这种行为会消耗客户太多的时间,“比较购物”为解决这一问题打下了坚实的基础。所谓比较购物是指为网上购物消费者提供多个购物网站中同一商品的比较信息,包括商品价格、支付方式、配送方式、商家信誉度等的比较资料。目前比较购物可以使网上购物消费者足不出户即可“货比三家”,使消费者在短暂的时间内获得所需商品的详细信息,从而做出购买决策,当然,由于电子商务的整体环境需进一步完善,比较购物也存在着一定的风险。本文从比较购物搜索引擎的概念着手,对目前比较流行的几个比较购物搜索引擎进行比较,以此为基础构建了比较购物搜索引擎的模型,并以大拿网(省略)为实例,证明这个模型是可行的。
2 目前常用比较购物搜索引擎的比较
2.1 比较购物搜索引擎的概念
随着加入比较购物网站的服务商数量和商品数量的迅速增加,比较购物网站已经与搜索引擎具有类似的特征,即作为用户查询商品信息的工具,为制定购买决策提供支持,购物搜索引擎可以理解为搜索引擎的一种细分,即在网上购物领域的专业搜索引擎。购物搜索引擎是从比较购物网站发展起来的,比较购物最初的设想,是为消费者提供从多种在线零售网站中进行商品价格、网站信誉、购物方便性等方面的比较资料,随着比较购物网站的发展,其作用不仅表现在为在线消费者提供方便,也为在线销售上推广产品提供了机会,实际上也就等类似于一个搜索引擎的作用了,并且处于网上购物的需要,从比较购物网站获得的搜索结果比通用搜索引擎获得的信息更加集中,信息也更全面(如有些比较购物网站除了产品价值信息之外,还包含了包含对在线销售商的评价等),于是比较购物网站也就逐渐演变为购物搜索引擎。因此一些网站开始逐渐放弃“比较购物”一词,而改称为“比较购物搜索引擎”。
比较购物搜索引擎以满足消费者的实际需求为出发点,帮助消费者从无数的在线销售网站中找到自己所需要的商品与服务。比较购物搜索引擎将从网上商店抽取的商品信息存储到数据库中,当消费者查看商品信息时,系统将根据用户的请求从数据库中提取数据,显示给消费者。
比较购物搜索引擎区别于一般网页搜索引擎的功能在于,除了搜索商品、了解商品说明等基本信息外,还可以进行商品价格比较,并对商品和在线商家进行评级,这些评比结果对于消费者购买决策有一定的影响,尤其对于知名度不是很高的在线商家,通过比较购物搜索引擎,不仅增加了被用户发现的机会,若在评比上有较好的排名,也有助于增加消费者的信任。因此,当消费者进入比较购物网站进行商品信息检索时,就可以获得比较丰富的信息,使消费者可以做出对自己最好的决定。
2.2 比较购物搜索引擎的比较
全国的B2C网上商店已经达到10万家,网上商品数超过6000万件,要找到消费者满意的商品相当困难。比较购物成为目前最受欢迎的网上购物方式,比较购物的优势和好处是用户可以对同一件商品的不同商家、不同报价进行同时对比和选择,更重要的是用户可以直接比较用户对不同商家同一产品的评论,对商家提供的配送服务、支付方式、售后服务、打折优惠信息进行透明比较,一目了然。通过比较购物,用户只需在一个站点即可真正做到货比多家,买东西不吃亏。
目前中国出现的比较购物网站正在逐步的完善中,每个比较购物网站都有自己的特色,我们将通过表1对5家比较有代表性的比较购物网站进行分析:
更新速度时时更新每天更新每天更新每天更新每天更新
盈利模式竞价排行、广告收入、与商家利润分成广告收入、与商家利润分成广告收入、商品销售分成、商家为点击付费与商家利润分成、广告收入竞价排名广告、与商家利润分成、第三方购物
经营范围通信、数码、办公用品综合性综合性计算机、通信、数码产品综合性
目前我国比较购物网站都能够比较准确、及时地提品基本信息,各比较购物网站也有自己的特色,如:“搜易得”和“中商网”为顾客提供了先行赔付的服务,消除了购物者的后顾之忧;2006年,“搜易得”推出全新“点击付费模式”,可以更加直观地更加合理地反映出商户的收益/付出比;“中商网”重视本地化购物,创新地提出了第三方购物的理念。
3 比较购物搜索引擎的模型
随着中国互联网和电子商务的发展,越来越多的B2C、C2C模式的电子商务网站如雨后春笋般涌现出来,为广大用户提供了购物的新途径,并直接促成了“中国互联网的第二个春天”。然而,网上商店由于其功能的单一性,消费者必将花费更多的时间和精力对多个网上商店的商品价格、商家信誉、支付方式、配送方式等信息进行多次比较才能获得自己所喜欢的商品。笔者提出的比较购物引擎的模型(如图1所示)使这种情况得到了一定的改善,比较购物网站依托先进的搜索技术,整合众多电子商务网站的资源,将其数据库融合为一个数据库,为广大用户提供卓越的购物导购服务。
图1 比较购物搜索引擎模型
整个比较购物的过程大致步骤如下:进入比较购物网站,填写相关信息(用户名称、登录密码、邮箱等)进行注册,注册成功后再登录网站,在搜素栏中输入自己所要购买的商品名称后将出现不同的报价范围,消费者根据自身条件比较、选择适合自己的报价范围,网站数据库根据消费者的选择来提供相关信息,消费者再通过比较不同商家的报价、商家信誉、配送方式等信息来选择购物网站进行购买。
4 实例研究
比较购物搜索引擎的兴起有效地解决了供应方和需求方的脱节问题,使消费者的网上购物更加方便、快捷。本文将通过比较购物网站――大拿网来具体描述比较购物搜索引擎的优势。大拿网(省略)是由北京赛宝时代信息技术有限公司(Beijing Cyber Times Information Technology co.,Ltd)开发的比较购物网站。大拿网以建立全球最大的中文比较购物网站为目标,在“互惠互利”的前提下,竭力发展与广大B2C电子商务网站的合作关系,为消费者提供了价格比较、综合搜索、信誉评级三项服务。下面以购买“索尼T90”为例简要叙述比较购物流程:进入大拿网(省略)首页,选择免费注册进入注册界面
填写相关信息提交,登录大拿网,在搜索栏中输入要购买的商品名称“索尼T90”,可以得到不同的报价范围(如图2所示),消费者根据自身需求选择合适的报价范围后,点击“查看详情”进入如图3所示界面,可以查看所选报价范围内出售该商品的商家的信用评级、商品的价格、商品的购买信息等,大拿网还启用纠错系统来不断完善比较购物体系,消费者根据多方面的比较后选择合适的电子商务网站就可以购得令消费者满意的商品。
5 结论
通过本文的比较分析可以知道,比较购物搜索引擎逐渐被人们所认识、了解并广泛使用是可以理解的。比较购物网站的出现,使消费者面对众多的网上商店不再感到眼花缭乱而无所适从;比较购物网站的出现,可以使消费者在最短的时间内,在浩如烟海的信息海洋中挑选出自己想要的商品,而且上手简单方便。当然,由于电子商务整体环境还有待进一步的完善,比较购物搜索引擎自身也存在一定的局限性,但是,比较购物搜索引擎为消费者方便、快捷地购物提出了希望。
参考文献
篇4
【关键词】搜索引擎;商标侵权;关键词;责任认定
一、搜索引擎商标侵权概述
1.搜索引擎商标侵权的界定
搜索引擎商标侵权是指将他人的部分或者全部商标设置为自己的Meta标签,或者通过竞价排名购买他人的商标作为自己的关键词从而引起互联网用户的混淆,并由此牟取不正当利益的行为。根据互联网调查数据表明,在互联网的热门服务中,搜索引擎以64.5%的使用率位居第三。由于网页的广告和销售收入与网页的访问量成正比,因此网页经营者们为了提高网页的点击率、增加收入,往往都会利用搜索引擎技术吸引客户,由此引发的搜索引擎商标侵权纠纷也就越来越多。研究搜索引擎商标侵权问题不仅可以更好地保护商标权人的利益,保护相关商标的商誉,打击侵害商标权的违法行为,还可以净化互联网的竞争环境,促进互联网更快更好地发展。
2.搜索引擎商标侵权类型分析
第一种,Meta标签引起的商标侵权。Meta标签可以用来描述网页的基本情况,还可以对关键词及网页等级进行设定,在网页设计中会将Meta标签嵌入网页源代码中。当互联网用户使用搜索引擎查找某一信息时,搜索引擎可以根据Meta标签快速的找到相关的信息网站。[1]一些网页设计者为了提高自己网页的点击率或者其他牟利的原因,利用一般的互联网用户看不到Meta标签这一特点,将他人的商标设置为自己的Meta标签,互联网用户使用搜索引擎查找该商标时,网页就会转到将Meta标签设置为该商标的网站,这便引起了商标侵权纠纷。
第二种,关键词检索引起的商标侵权。将Meta标签设置为他人商标存在不会被搜索引擎搜索到的风险并且容易被技术检测出来引起商标侵权纠纷,于是一种更为隐蔽的网络推广手段出现了,即为关键词检索。关键词检索的原理是公司向搜索引擎网站购买与公司产品或者服务相关的关键词,当用户搜索该关键词时,该公司的网站页面就会出现在搜索结果页面中较为突出的位置。而一些公司为了推广自己公司的产品或者服务向搜索引擎网站购买他人公司的关键词,当用户搜索该关键词时,很容易因为误认就进入了购买该关键词的公司网站,这就是关键词广告引起的商标侵权类型。[2]
第三种,搭载广告引起的商标侵权。搭载广告引起的商标侵权是指某公司并未购买某关键词,但是当用户搜索某一关键词时,该公司通过搭载广告的形式仍然出现在搜索结果的页面上。典型的广告搭载的例子就是“淘宝”和“易趣”这两个购物网站,互联网用户使用谷歌搜索“淘宝”时,搜索结果中会出现“想淘宝,上易趣”这个广告链接,而点击该链接就会进入易趣网站。其实搭载广告也是利用了关键词来进行商标侵权的,某些搜索引擎商利用搜索结果,将一些关键词提供给该关键词购买者的竞争对手作为搭载广告从而从中获利。
二、搜索引擎引起的商标侵权的认定
传统的商标侵权的认定可以适用《侵权责任法》上关于侵权行为的规定,那么搜索引擎引起的商标侵权应该如何认定呢?笔者认为搜索引擎引起的商标侵权是传统商标侵权在网络中的延伸,其同样可以适用《侵权责任法》,即从过错,违法行为,损害事实以及因果关系这四个方面来认定搜索引擎引起的商标侵权。[3]
1.过错
对于主观过错的认定同样要从搜索引擎服务提供商和作为链接的第三方网站这两个方面去分析。对于搜索引擎服务提供商,应适用过错推定原则。即如果其在提供竞价排名服务时没有尽到审查义务或者已知侵权情况发生而没有及时采取相应的补救措施就应当认定为其主观有过错。对于作为链接的第三方网站,如果其有将他人的部分或者全部商标设置为自己的Meta标签或者购买他人已注册的商标作为自己的关键词这种行为就应当认定为其主观有过错,除非网站经营者能够证明自己没有过错。适用过错推定原则一方面避免了受害方在网络环境下举证困难的不利因素,另一方面保证了网络交易的顺畅发展。[4]
2.违法行为
搜索引擎商标侵权主体不仅包括搜索引擎服务提供商,还包括作为链接的第三方网站。因此从这两个主体分别分析其行为有无违法性。首先看搜索引擎服务提供商违法行为的表现形式。搜索引擎服务提供商并不是商标的直接侵权者,他对商标侵权的责任在于在提供竞价排名服务时他对第三方网站提供的关键词没有尽到审查义务,致使商标专用权人受到了损害或者是商标专用权人已经告知其这种侵权行为,而搜索引擎服务提供商没有积极的采取补救措施。再来分析作为链接的第三方网站行为的违法性,如果他在自己的网页代码中将他人的 部分或者全部商标设为Meta标签,这种行为无疑是具有违法性的。如果该第三方网站只是参与了竞价排名服务,那么这种行为是否具有违法性还要看其购买的关键词是否是已注册的商标以及其是否具有不正当经竞争的目的等。
3.损害事实
损害事实,既包括对公共财产的损害,也包括对私人财产的损害,同时还包括对非财产性权利的损害,只要对他人人身或财产利益造成了受损的事实,均构成损害事实。[3]商标是一种无形资产,一个有着良好商誉的商标能给商标权人带来巨大的商业利益,商标的损害后果相较于其他损害事实来说是特殊的。结合《商标法》的立法宗旨,我们要认定搜索引擎引起的商标侵权的损害事实,其包括以下几个方面:
(1)是否侵害了商标专用权人的商业利益,是否使商标所享有的信誉降低以及是否侵害了生产经营者的利益;
(2)是否侵害了消费者的利益;
(3)是否破坏了网络交易秩序等。[5]
4.因果关系
侵权行为中的因果关系是指违法行为与损害结果之间的客观联系,即特定的损害事实是否是行为人的行为必然引起的结果。只有当二者间存在因果关系时,行为人才应承担相应的民事责任。因此,因果关系是侵权行为构成要件的必备环节。因果关系也可以分为直接的因果关系和间接的因果关系。作为链接的第三方网站将他人的部分或者全部商标设置为自己的Meta标签或者参与竞价排名服务购买他人的商标作为自己的关键词,这种侵害他人商标专用权的行为与损害事实有着直接的联系。而提供竞价排名服务的搜索引擎商帮助第三方网站侵害商标权人的利益,这种行为和损害事实有着间接地联系。
三、完善搜索引擎商标侵权责任的具体建议
1.明确搜索引擎商标侵权的责任承担主体
(1)搜索引擎服务商的审查和补救义务
要减少搜索引擎商标侵权的纠纷,搜索引擎服务商需要尽到一定的审查义务,同时在侵权情况发生后商标专用权人提出异议时也应当及时进行补救。首先,搜索引擎服务商应当对第三方网站申请购买的关键词进行审查,随着现在网络技术的发展,程序人才辈出,搜索引擎服务商应当设计一套程序。这套程序中应当包含所有已注册的商标,区分为驰名商标和普通的注册商标。对于驰名商标,与其有关的关键词一律属于商标权人,不得卖给其他任何第三方网站。而对于普通的注册商标,如果购买人能够提供合理的说明,则可以进行关键词购买。其次,搜索引擎服务商应当对购买关键词的第三方网站进行审查。如果作为链接的第三方网站将关键词作为自己的商标,使消费者产生了混淆,那么应当及时删除,否则将会侵害商标权人的利益。最后,一旦侵害情况发生,且商标权人已经及时将此情况告知搜索引擎服务商,搜索引擎服务商应当立即对链接的第三方网站进行删除或者屏蔽,否则就应当共同承担侵权责任。
(2)作为链接的第三方网站的责任
作为链接的第三方网站在合理使用关键词的情况下不构成商标侵权,但是我国对于合理使用并没有作出一个明确的界定,而搜索引擎中商标侵权的认定又比较的复杂,可以从以下两个方面对第三方网站是否属于商标侵权责任承担主体进行认定。
(1)作为链接的第三方网站主观上有没有恶意,有没有使用他人商标增加点击率的不良意图,会不会使互联网用户对第三方网站的商标和使用的关键词商标产生误认。由于这种善恶意都是主观状态,所以我们应该从以下几个方面去考察,第三方网站购买关键词是在该商标成为知名商标前还是之后;第三方网站是否必须使用该关键词来描述自己的网站;第三方网站使用该关键词是否使消费者产生了混淆,有没有对这种混淆采取避免措施等。
(2)作为链接的第三方网站使用该关键词只是为了描述自己的网站,而并非出于搭便车的心理。一些关键词虽然被作为商标,但是它并没有失去其本身的含义,第三方网站购买该关键词只是为了说明自己的服务或者产品,并没有将其作为商标使用使消费者产生混淆或者在自己的网页中采取了避免混淆的措施,在这种情况下作为链接的第三方网站就不需要承担侵权责任。
2.明确搜索引擎商标侵权的责任形式
从一些案件的判决结果可以看出,在搜索引擎商标侵权中是以共同侵权责任制度来解决搜索引擎服务商这一间接侵权行为。根据《中华人民共和国侵权责任法》第八条第二款及《民法通则》第130条的规定,认定搜索引擎服务商与作为链接的第三方网站对商标权人承担连带责任。在司法实践中,用共同侵权来解决搜索引擎商标侵权案件有一定的弊端。如果搜索引擎服务商与作为链接的第三方网站承担连带责任,由于我们很容易找到搜索引擎服务商,而作为链接的第三方网站经营者我们很难找到,所以商标权人往往会选择实施了间接侵权行为的搜索引擎服务商,这无疑是不公平的。在网络技术发达的今天,如果使搜索引擎服务商与作为链接的第三方网站承担连带责任,那么搜索引擎服务商的注意义务将大大提高,这不仅仅会造成不公平,更不利于互联网的发展。基于以上理由,应当是搜索引擎服务商和作为链接的第三方网站分别承担相应的民事责任,搜索引擎服务商承担其间接侵权的责任而第三方网站承担其直接侵权的责任。这样有主有次,一方面搜索引擎服务商因为会承担相应的间接侵权责任而尽到自己的审查义务,另一方面作为链接的第三方网站也会为自己的侵权行为买单,既体现公平,也能够加强商标的保护,促进互联网的发展。
3.搜索引擎商标侵权责任的承担
根据我国《侵权责任法》的相关规定,考虑到搜索引擎商标侵权主要是侵害了商标权人所拥有商标的商誉,所以搜索引擎商承担侵权责任的方式主要有停止侵害、赔礼道歉、消除影响及赔偿损失等四种方式。其中我国现行计算商标侵权的损害赔偿主要依据是权利人的损失、侵权人的获利以及法定的赔偿数额。搜索引擎引起的商标侵权也依然适用这三个标准,即作为链接的第三方网站的获利、商标权人的损失以及法定的赔偿数额。作为链接的第三方网站的获利可以根据其在侵权行为持续期间所获的全部销售收入减去成本之后,都作为侵权人的获利,而这里第三方网站的获利是由于消费者对其产品产生混淆得来的。[6]而商标权人的损失则是由于第三方网站的侵权使得商标权人的产品销售量减少从而产生的损失,这一部分损失应当由商标权人来举证。法定赔偿是指在人民法院无法查清受害人实际损失和侵权人营利数额时,人民法院按法律规定的赔偿数额确定的赔偿数额。[7]
参考文献
[1]张乃根,符望.全球电子商务的知识产权法[M].上海:上海交通大学出版社,2004:222.
[2]焦文铭.搜索引擎侵权的法律分析[J].江苏警官学院学报,2007(2):2-3.
[3]孙艳花.商标侵权认定研究[J].商业文化,2011(7):9-10.
[4]邓富国,曹新明.网上搜索引擎商标侵权探析[J].人民司法,2002(4):5-6.
基金项目:本文系2011年度辽宁省大连市科技计划项目“大连市知识产权保护能力建设的法律对策研究”(项目编号:2011D12ZC137);辽宁省社会科学规划基金项目重点项目(辽宁文化产业发展法律问题研究(项目编号:L12AFX001)支持。
作者简介:
篇5
关键词:搜索引擎 查准率 查全率
中图分类号:TP3 文献标识码:A 文章编号:1672-3791(2012)12(c)-0022-01
搜索引擎在国外发展的较早,比较著名的有:Google,Yahoo,Excit,Lycos等。其中根据ComScore公司近两年的统计,全球近75%的网民使用过谷歌搜索引擎或其提供的各种衍生服务。而我国主要从1997年开始发展面向中文信息检索的中文搜索引擎。到现在,国内搜索行业已被百度所统领。
虽然搜索引擎的出现确实为人们在网上查找信息提供了强有力的手段和有效的工具,但是目前,属于某个领域的各种中文搜索引擎的数量越来越多,从而使搜索引擎产生了一定的局限性。并且在信息维护、网络站点负载,管理及服务等方面暴露了一些问题与不足。
1 搜索效率
搜索引擎的两个主要指标是查准率(precision)和查全率(recall)。查准率从一个方面描述了搜索引擎系统的查询开销。如果某次查询的查准率是85%,则15%的文献是不相关文献,但用户浏览其中的内容以确定它们是否包含所需信息。对于实际系统,索引速度和检索速度也是重要指标。事实上,在测试中,绝大多数系统的平均查准率都在0.1~0.5之间,最好的测试结果平均查准率也不到0.6。根据直观估计当前Internet上的著名搜索引擎,如yahoo,google等,它们的平均查准率小于0.2。这说明搜索引擎系统的性能还有很大的提高空间,但提高系统性能是非常困难的。
2 站点和网络负载
这也是目前网络搜索引擎存在的最大问题。网络搜索机器人快速地读取文档,必然会导致了大量的网络流量和站点负载,传输大量的数据时,某些站点很有可能会因为机器人要读取文档而一直处于繁忙状态。机器人所造成的负载很大程度上是由于机器人为了对相应数据建立索引,需要读取整个文档造成的。另外,当机器人沿链接作深度优先搜索时,WEB服务器的负载往往也很重。
3 搜索引擎间的数据重复
常用的搜索引擎很少能够与其它的搜索引擎共享它们的数据。其结果就是多个搜索引擎检索相同的资源和文档,多个机器人搜索访问同样的WEB站点,无疑带来了不必要的网络和服务器负载。当用户使用多个搜索引擎寻找信息时,也给用户造成不必要的麻烦。
4 链接和数据的易变性
这是搜索引擎所面临的一个重要问题。对搜索引擎的影响是,索引数据库存储的文档和链接信息很有可能已经改变了位置或己经被删除。当用户查询某些信息时,搜索引擎给出文档和链接的列表,而当用户试图沿着链接到远程站点访问这些信息时,他们也许会收到这样的出错信息,“没有找到服务器”。
5 缺乏统一的规划、协调与合作
目前国内搜索行业百度已是一方霸主。然而,搜狗也在推出搜索引擎开放平台,中搜更是强力打造自己的第三代搜索引擎,包括一淘网、网易有道等垂直搜索也渐成“气候”。搜索是互联网产品中的高科技产品,企业间的竞争不应局限于与同业者的横向竞争,更应该在自身的技术深度上勤加耕耘。同时相互协作,取长补短,为用户提供更好的搜索产品和体验。
6 网络知识产权立法落后
我国对网络中的侵权行为,没有成型的法律进行规定。目前大多采用《著作权法》的相关规定来解决,但是在网络环境下,知识产权的客体得到了拓展,网络知识产权侵权的类型也呈现多样化。因此传统的著作权法有着其局限性,为适应网络知识产权保护范围扩大化的要求,必须揭示和分析存在的问题并加强和完善保护措施,以保证权利人的权益得到切实的保护。
针对中文搜索引擎存在的种种问题,结合国外搜索引擎发展过程中的经验,笔者认为中文搜索引擎可采取以下对策。
(1)建立垂直化、专业化搜索引擎。
垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式。
它是针对性的为某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。可以简单的说成是搜索引擎领域的行业化分工。市场需求多元化决定了搜索引擎的服务模式必将出现细分,针对不同行业提供更加精确的行业服务模式。通用搜索引擎的发展为垂直搜索引擎的出现提供了良好的市场空间,势必将出现垂直搜索引擎在互联网中占据部分市场的趋势,也是搜索引擎行业细分化的必然趋势。
(2)建立搜索引擎协调机制,制定网站的有关标准。
随着中文搜索引擎的日益增多,各类搜索引擎开发与资源建设的重复现象也越来越严重。因此,建立统一的机构,协调各搜索引擎网站之间的开发设计与资源建设也就提上了日程。
(3)发展中文搜索引擎的个性化信息服务。
个性化搜索是以用户为中心的搜索技术,它获取以多种形式表达的用户需求,并综合利用这些用户信息,提高搜索引擎满足用户需求的能力。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主动推荐的目的。
目前的技术发展过程中,搜索引擎逐渐更加注重对于用户群体的个性化使用习惯的培养,百度推出的“个性化首页”产品就为用户提供登录后推荐信息和应用的极大便利,以此鼓励用户提供个性化信息,提升搜索效果并增加用户黏性。随着搜索引擎在网络应用环境中的更深层次参与,这类个性化产品的数量和应用规模也有继续扩大的趋势,而个性化搜索技术的发展也呈现出更加积极的前景。
(4)多媒体搜索技术。
随着多媒体信息处理技术在近年来的发展,搜索引擎的部分多媒体搜索产品开始越来越多的依靠媒体内容提升搜索服务水平。2011年,谷歌、百度和搜狗搜索都提供了以图片作为查询需求表示的“以图搜图”的图片搜索功能,满足用户对于图片获取的信息诉求。
(5)健全有关的网络法规。
法律法规不健全会为搜索引擎的发展带来一定的阻碍。所以,我们要制定并健全现有的法律法规。
随着互联网的飞速发展,各类中文信息资源的日益丰富,赋予了中文搜索引擎无限的生机,同时也给中文搜索引擎的发展带来了严峻挑战。各类中文搜索引擎只有切实研究用户信息需求的特点,不断完善和发展搜索技术,走适合自己发展的商业化道路,才能在众多的搜索引擎中获得属于自己的发展空间,才能在激烈的竞争过程中立于不败之地。
参考文献
[1] 刘奕群.中文搜索引擎发展研究报告[R].中国人工智能学会通讯,2012(5).
篇6
关键词:元搜索;相似度;去重;排序
中图分类号:TP311 文献标识码:A DoI: 10.3969/j.issn.1003-6970.2012.06.016
Meta Search Engine Results to Weight and Sorting of
【Abstract】Go heavy and sorting are two key issues to improve the quality of the results of the meta-search engine, the article analyz
es the cosine similarity, three kinds of text similarity based on tf-IDf weight algorithm, using the UrL, title, and calculation of summary similarity toweight; Board sort stars sort, the polling method, location, sort, and the concept of feasible search results, a comprehensive sorting algorithm. the experimental results show that the integrated sorting algorithm accuracy, recall rate of better than other algorithms.
【Key words】Meta-search; Similarity; to heavy; Sort
元搜索引擎是指通过集成多个独立的搜索引擎,将用户的检索请求转换处理后提交给它们,并将每个独立搜索引擎返回的结果统一进行去重,并重新排序后反馈给用户[1][2]。由于元搜索的数据来源是独立搜索引擎,返回的结果中通常会有重复数据,同一条结果在不同搜索引擎中返回结果的位置也不一样,因此,如何去除重复数据,同时将质量好的结果排序靠前是元搜索要解决的两个关键问题。
元搜索的结果来自用多个独立的成员搜索引擎,虽然不同的成员搜索引擎的覆盖范围不一样,但返回的结果中会出现重复数据,降低了检索结果的质量[3]。因此,在将结果返回给用户前,需要将重复内容去除。重复内容通常会有如下两种情况:一种是内容完全一样,另一种是内容相似,如同一个内容主题,在不同的网站用了稍微有区别的表示。
第一种重复只需要判断URL或网页标题即可识别,第二种内容重复则需要计算返回结果中的标题、摘要的相似度,达到某一相似度即可判断为重复。因此,在结果去重时首先判断两网页的URL和标题是否相同,若是,则认为重复;否则,提取两网页的摘要并进行相似度计算,判断两网页是否为重复网
文本相似度的计算方法通常采用文本挖掘中的余弦相似度来衡量,基本思想是将待检测的文本表示为一个特征向量,通过计算向量的夹角余弦值来判断。余弦值接近于1,说明相似度较高。特征向量通常用字或者词出现的次数来表示,如:令Di为待检测文档,其特征向量表示为:
Di=D((ti1,wi1),(ti2.wi2),…,(tin.win))
其中tij表文档i的第j个特征词,wij表示该特征词的频次。文档Di和Dk之间的相似度利用公式(2)计算:
TF-IDF算法是通过统计文档词频来计算词权重[4],基本思想是:一个词在特定文档中出现的次数越高,说明它在区分该文档内容属性方面的能力越强(TF),一个词语在文档中出现的范围越广,说明它区分文档内容的属性越低(IDF)。其计算公式为:
wij=tfij×idfj=tfij×log(
其中tfij指词语tj在文档di中出现的次数;idfj指出现词语tj的文档的倒数。N表示文档总数,nj指出现词语tj的文档数。wij表示了词语tj在文档的权重,使用该值来表示文档特征向量。
元搜索的结果排序是指对其调用的所有成员搜索引擎返回结果重新进行排序处理。目前元搜索引擎采用的排序算法多种多样,有的是对成员搜索引擎返回的结果信息进行综合,根据各个成员搜索引擎的排序信息,来重新进行排序;有的则先将成员搜索引擎的结果收集起来,再重新选择某种排序方法对这些结果进行处理;有的是给不同成员搜索引擎的检索结果分配一定的分值,对其进行融合处理,之后按序显示给用户[5]。常见的算法有如下几种:
Board排序类似于选举,根据票数多少进行排序。在元搜索中,对于某个查询,它被几个成员搜索引擎检索到,则该结果记录就得几票,最后统计各个结果记录的票数,按照票数多少排序。为了更好地利用原来成员搜索引擎的排序信息,对每个成员搜索引擎的结果按照从前到后的顺序分配一定的权值,统计结果时乘以相应的权值,可细化每个结果所得票数。
星星排序是首先统计某个搜索结果记录在多少个成员搜索引擎的前面几条信息中出现,以此作为相关度评价指标。对于某个查询结果,若在一个成员搜索引擎的前几条中出现,就得到一个“星”,得到的“星”越多,则该记录就越重要。最后比较每个结果所得的“星”的个数,并以此排序。
轮询法( round-robin)首先把成员搜索引擎根据其性能按照一定次序排列好,然后按照这些次序将每个查询结果中的第一项依次列出,再把每个查询结果中的第二项依次列出,依此类推。一个结果出现在多个搜索引擎中的以第一次出现该结果的为基准,后面出现的不再参加排序。中途出现某搜索引擎的结果已经取完时,则跳转到下一个搜索引擎。
篇7
[关键词]搜索引擎优化;关键词广告;SEO
[DOI]10.13939/ki.zgsc.2016.32.159
1 引 言
互联网的迅速发展,带动了互联网信息的膨胀,其商业价值也被人们所发掘。更多的行业将信息投放到网络当中,希望通过搜索引擎广告或其他类型广告被发现,以低成本带来可观的收益。这其中的搜索引擎优化则是目前来看最为主流和有效的广告推广形式,大部分企业都青睐这一方式。
我国搜索引擎行业已经比较成熟。搜索引擎关键词搜索成为企业主要关注的领域。为了能够给企业带来更好的推广效益,需要及时更新搜索引擎营销,来适应当前的网络环境,满足客户的需求。这就需要时刻对行业情况以及搜索引擎的抓取方式进行分析,为商家带来更多的商机。
2 关键词提取相关文献述评
2.1 关键词提取方法
目前,市场上主流的关键词提取方法主要包括:启发式原则提取文本当中的关键词,借助于无监管学习方式来提取关键词,以自动标示文献主题为基础的提取方式,以词语网络为基础的关键词提取方式等。
2.2 存在的问题
虽然关键词提取方式众多,不过都存在着或大或小的缺陷,比如: 一般的提取方式是为文本产生可以表示其主旨的关键词,但是搜索竞价广告关键词优化的目标却没有这么简单,任何可能会引导用户进入企业网址的词汇都应纳入候选目标当中。还有,关键词产生范畴存在差别。一般的提取方式均提取特定文本当中的关键词,但是搜索竞价广告关键词优化方式产生的关键词仅有极少数显现在推广信息当中,剩余的均依据计算方式的设置在别的材料当中体现。
为了能够解决方法存在的一些问题,本文以搜索广告的特征为基础推出一种提取方式来产生种子关键词。
3 种子关键词生成
3.1 问题分析
搜索广告种子关键词提取要获取的结果是一批和主旨存在关联的关键词,这类词语当中输入方,参加到之后的环节当中。
3.2 模型简介
这种方式是以序列模式发掘为基础的。序列模式发掘属于速度较快的一类方式。文章选用的是以这一方式为基础的迭代法来发掘语言模式及提取关键词。这一以模式发掘为基础的关键词提取模型的操作流程简单地介绍如下:其一是选出一批备选的关键词当作种子并且运用序列模式发掘的计算方式以选出的关键词为基础来选择关键词的模式,其二为运用语言模式提取关键词。此次迭代获得的关键词将会当作下一轮迭代首个步骤的输入来发掘接下来的语言模式。这一迭代流程重复操作直至不再产生全新的语言模式。
文章将广告文本处置成数个语句的集合,关键词是可以表现语句主旨的单词。语言模式是和关键词紧密相联的词序。比如:在例句“店铺出售鲜花”当中,“鲜花”便是关键词,词序“店铺出售”便是语言模式。
3.3 语言模式挖掘
3.3.1 初始关键词选择
这种算法第一步便是要选取一批最初的关键词用作发掘最初的语言模式。文章指出,ODP 的目录名能够被选定成最初的关键词集合。可是这种目录名无法涉及全部的关键词,因而这一算法必须持续地迭代,从而发掘出全新的关键词。
3.3.2 语料预处理
在展开语言模式发掘以前,最初的语料库必须展开预先处置,文章将预先处置的全部程序表述为:
(1)运用文本预先处置的方式对其展开预先处置,这类的活动包含中文分词处置、词句分离、量词消除等。
(2)利用来更换关键词表格当中的词语。比如,若关键词表格当中包括“鲜花” 一词,则语句“买鲜花赠人”将会被修正成“买赠人”。展开这类更换的诱因在于经过这种更换能够提取更为丰富的关键词。若运用上面的模式和语句“买手机赠人”展开配置,则“手机”将会被当作关键词而提出。
3.3.3 序列模式挖掘算法
文章将语句视为词语的集合,因为采用序列模式发掘的方式来提取语言模式。
文章把全部的序列按照元组来划分并且存进数据库,元组呈现成< sid,s>,在这当中 sid 是序列的标记,s 是属于该元组内的某个词语集序列。若序列α属于s的子集,那么便说s 包含α。文章把序列α的支撑度界定成数据库S当中包含α的元组的数量,其具体可阐释为:
Support(α)=|{ |(∈S)∧(α∈s)}|
若Support(α)超过了设置的阈值,便将α当作模式。
序列模式发掘方式的目的是寻找相应数据库当中全部的模式。在文章的语言发掘方式当中序列属于文本预先处置流程当中的分段,序列中的要素便是分段中的词语。
3.3.4 模式匹配
语言模式发掘方式产生的语言模式将用作配置语料库从而产生全新的关键词。若某个词语或是短句在发掘的语言模式当中有所表现而且处在的位置,则这一词语将会被选定成关键词。比如:语言模式: “喜爱”。若语料库当中的某个语句为“年轻的姑娘都非常喜爱玫瑰花”,便选取“玫瑰花”当作关键词。文章借助于模式配置来提取文档当中的关键词。
4 结 论
搜索竞价广告关键词优化力争为在搜索引擎中投送推广信息的人群供应最佳的关键词选取规划,从而帮助其获取更高限度的经济利益,并且促使其脱离繁杂的人工操作阶段,有力地给予他们科学引导。因而,对其的探究具有极大的运用价值。
本文给出了一种广告关键词抽取算法用于抽取广告中的关键词。该算法首先利用序列模式挖掘算法抽取语料库中的语言模式,然后利用抽取得到的语言模式库对广告进行关键词抽取。这种算法克服了传统的基于统计信息的关键词抽取算法在广告关键词抽取领域中的不足,其抽取结果的准确率和查全率都有很大提升。
参考文献:
[1]丁银芳.基于Web日志挖掘的个性化推荐原型系统研究与实现[D].南京:南京农业大学,2009.
[2]张建娥.基于TFIDF和词语关联度的中文关键词提取方法[J].业务研究,2012(10).
篇8
关键词:网络营销 关键词广告 关键词分析
1.搜索引擎关键词广告定义
关键词广告【1】是一种文字链接型网络广告,通过对文字进行超级链接,让感兴趣的网民点击进入公司网站、网页或公司其它相关网页,实现广告目的。搜索引擎关键词广告已经成为诸多企业进行搜索引擎营销时首要选择的方法。
2.关键词广告的特点和形式
对于广告主来说,挑选有效关键词并将广告信息提交审核通过后,其广告信息就可以随时被展现在搜索结果中,通过改变关键词的单次点击价格就可以预估出广告出现的大置,若广告主需要改变广告信息内容,可以随时对标题、创意、连接地址进行改动,通过改动连接地址可以引导网络用户到达广告主想要其到达的任意一个网页。同时,广告主可以利用搜索引擎服务商提供的效果监测工具对关键词广告的各项数据进行实时跟踪和监控。总得来说,关键词广告的特点可以总结为广告投放具有随时性及可控性、广告信息及出现位置调整便捷、关键词广告具有强精准性和灵活性、广告效果具有实时可控性。
3.关键词选择的常用方法
目前企业在进行搜素引擎关键词广告营销过程中普遍采用的是“关键词选择的常用方法”,这种方法有其便捷性,即使是刚刚接触搜索引擎营销的新人也可以使用,但是它有很大的弊端。相比之下,层级递进式关键词选择法则可以很好的帮助企业及营销人员从企业营销的多个维度出发来满足网络用户的搜索需求,从而达到提升企业投资回报率的目的。
利用关键词工具进行关键词选择的方法存在很大的弊端,如果没有一个明确的目标,那么选择关键词的过程将是一个盲目的过程,对于企业及网络营销人员来说其只能作为关键词选择过程中的辅助方法使用。
4.关键词选择的创新方法层级递进式选择法
(1)关键词的初选
以整形美容行业关键词选择为例,说明初选的方法。整形美容行业关键词主要可以分为四个类别:即品牌词、行业词、短语词和长尾词。
品牌词中包含的是含有企业牌品的关键词。
行业词是在短语词的基础上添加修饰或限定词进行拓展后得到的短语词稍长的关键词,形容限定词主要分为以下几种类别:技术方法、效果、手术、治疗、价格、医院、专家、地域等。
短语词主要按照以下几个类别来进行细分:项目词、部位词、项目+部位词以及三种类型的关键词组合后的新词。
长尾关键词包括以下几类词:症状+解决词、病因词、(短语词、行业词)加效果词、比较词、加形容词后的长度比较长的关键词。
(2)以优先级为基础的关键词过滤
企业在进行搜索引擎关键词营销时,不能盲目选择网络用户查询信息过程中使用数量多的关键词,而是要选择与自身网站内容最相关、价值最高的关键词。按照关键词价值的不同,将关键词划分为三个等级:低级词、中级词和高级词。高级词:指得是那些与网站自身内容非常相关但是网络用户通过搜索引擎搜索较少,但是点击率高的关键词;中级词:指的是那些与网站内容比较相关,网络用户搜索量较多,点击率比高级词低的词;低级词:指的是那些与网站自身内容相关,网络用户通过搜索引擎搜索量高,点击率比中级词低的关键词。
(3)以满足用户搜索需求的关键词过滤
网络用户从出现整形需求到真正进入目标网站的过程可以分为以下六个行为阶段:即病因症状了解阶段、寻求非手术治疗阶段、手术治疗信息了解阶段、比较对比阶段、寻求手术治疗阶段、再次寻求手术治疗阶段。
在这六个阶段中,寻求非手术治疗阶段主要是网络用户想通过非手术方法获得治疗,处于这个阶段的网络用户并没有考虑通过手术方法进行治疗,所以企业在进行关键词选择时可将这个阶段的词完全过滤掉;
再次寻求手术治疗阶段主要是受术者寻求手术治疗失败后需要进行手术修复的阶段,这个阶段网络用户会非常谨慎,一般会选择更加权威的医院接受治疗。对于权威性高的医院需要对此阶段加大投入:
病因症状了解阶段的网络用户主要是通过搜索引擎查询特定症状或者病因找到企业网站,并阅读网站上已经准备好的内容来为他们答疑解惑,在这之后引导其发现自己所需服务。这个阶段选择的关键词例词见下表:
当网络用户开始查询具体的手术项目、方法、治疗方法、效果、副作用/后遗症、治疗费用时,就进入了手术治疗信息了解阶段。这个阶段选择的关键词例词见下表:
在比较对比阶段,网络用户在对病因症状、治疗方法、手术项目进行了解的基础上进行医院和专家的对比选择;具体关键词例词见下表:
当网络用户帅选出了自己信赖的医院及专家后,便会直接进入网站通过网站进行在线咨询,这时就到了寻求手术治疗阶段。
(4)以企业营销目标进行关键词过滤
以提升品牌知名度为标准的关键词选择过滤出来的关键词主要是包含企业名称或者可以体现出企业产品或者服务优势的关键词,通过筛选,最终确定的关键词种类有“品牌词”、“行业词”中的‘效果词’以及“长尾词”中的‘比较词’。
以网站转化为标准的关键词选择过滤出来的关键词主要集中在“行业词” “品牌词”和“短语词”。由于行业词和品牌词中的关键词含有企业品牌和网络用户搜索5个阶段的关键词,其能够带来更高的转换率,故而将这三类关键词设置为重点关键词。对于“长尾词”中的效果词、比较词,其可以体现出医疗企业的权威性和优势“激光脱毛效果好”、“武汉脱毛医院哪家好”等能够很好体现三甲医院权威的关键词也可以带来较高转化率,这两类关键词归类至次重点关键词。“长尾词”中的“症状+解决”词和“病因词”,由于其不能明确判断网络用户需求,其转化率就会相应偏低,故将其归类至非重点关键词,在进行关键词广告投放过程中可以选择这类关键词,也可以将其剃除。
医疗企业在使用层级递进式关键词选词法进行关键词选择时,需要研究网络用户的搜索行为,并结合企业自身情况,合理使用关键词过滤组合,只有这样才能选择到有利于医疗企业搜索引擎营销的关键词组合。
5.总结
企业搜索引擎关键词营销活动开始前,关键词的选择一般都是不完美的,对于想要通过搜索引擎进行关键词广告投放来开展网络业务的企业来说,需要对关键词营销的效果进行跟踪测试,不断地对测试结果加以分析,根据分析结果有目的性的增加或者减少关键词,以期让企业的搜索引擎关键词营销效果达到最佳。
企业在利用搜索引擎进行关键词营销时,需要明白关键词是需要根据营销效果及目的进行不断调整的,当碰到网企业营销目标发生变化、竞争对手品牌提升或者企业产品、服务进入不同时期等情况时,企业需要根据情况进行关键词的再选择,否则,已选择的关键词或跟踪而选定的有效关键词,就会出现转化率降低的情况,进而影响企业进行搜索引擎关键词营销的效果。
参考文献:
篇9
关键词:网络 搜索引擎 发展 使用技巧
中图分类号:G520文献标识码: A
1 搜索引擎技术发展史
从搜索引擎所采取的技术来说,可以将搜索引擎技术的发展划分为4个时代。
1.1 分类目录的时代
这个时代也可以称为“导航时代”,Yahoo和国内hao123是这个时代的代表。通过人工收集整理,把属于各个类别的高质量网站或者网页分门别类罗列,用户可以根据分组目录来查找高质量的网站。这种方式是纯人工的方式,并未采取什么高深的技术手段。
采取分类目录的方式,一般被收录的网站质量都较高,但是这种方式可扩展性不强,绝大部分网站不能被收录。
1.2 文本检索的时代
文本检索的一代采用经典的信息检索模型,比如布尔模型、向量空间模型或者概率模型,来计算用户查询关键词和网页文本内容的相关程度。网页之间有丰富的链接关系,而这一代搜索引擎并未使用这些信息。早期的很多搜索引擎比如Alta Vista、Excite等大都采取这种模式。
相比分类目录,这种方式可以收录大部分网页,并能够按照网页内容和用户查询的匹配程度进行排序。但是总体而言,搜索结果质量不是很好。
1.3 链接分析的时代
这一代的搜索引擎充分利用了网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义。通常而言,网页链接代表了一种推荐关系,所以通过链接分析可以在海量内容中找出重要的网页。这种重要性本质上是对网页流行程度的一种衡量,因为被推荐次数多的网页其实代表了具有流行性。搜索引擎通过结合网页流行性和内容相似性来改善搜索质量。
Google率先提出并使用PageRank链接分析技术,并大获成功,这同时引进了学术界和其他商业搜索引擎的关注。后来学术界陆续提出了很多改进的链接分析算法。目前几乎所有的商业搜索引擎都采取了链接分析技术。
采用链接分析能够有效改善搜索结果质量,但是这种搜索引擎并未考虑用户的个性化要求,所以只要输入的查询请求相同,所有用户都会获得相同的搜索结果。另外,很多网站拥有者为了获得更高的搜索排名,针对链接分析算法提出了不少链接作弊方案,这样导致搜索结果质量变差。
1.4 用户中心的时代
目前的搜索引擎大都可以归入这个时代,即以理解用户需求为核心。不同用户即使输入同一个查询关键词,但其目的也有可能不一样。比如同样输入“苹果”作为查询词,一个追捧不iPhone的时尚青年和一个果农的目的会有相当大的差距。即使是同一个用户,输入相同的查询词,也会因为所在的时间和场合不同,需求有所变化。而目前搜索引擎大都致力于解决如下问题:如何能够理解用户发出的某个很短小的查询词背后包含的真正需求,所以这一代的搜索引擎称之为以用户为中心的一代。
为了能够获取用户的真实需求,目前搜索引擎大都做了很多技术方面的尝试。比如利用用户发送查询时的时间和地理位置信息,利用用户过去发出的查询词及相应的点击记录等历史信息等技术手段,来试图理解用户此时此地的真正需求。
2 网络搜索引擎的发展趋势
2.1 个性化搜索
互联网的发展已经进入了新的阶段,即以用户为中心的阶段。如何通用用户的网上行为建立用户的个人模型,并基于此提供精准的个性化服务成为各种研究的重点。搜索引擎也不例外,个性化搜索即是为了解决这个问题而提出的技术领域。
对于搜索引擎用户来说,由于其个人兴趣不同,即使是同一个查询词,也可能其搜索意图迥异。如用用户发出查询“Ajax”,如果这个用户是计算机工程人员,那么很有可能希望查找的是技术资料;而如果这个用户是个球迷,那么很可能希望查找的是了阿贾克斯球队的信息。所以即使是相同的查询词,如何为不同的用户提供个性化的搜索结果,成为衡量搜索引擎搜索质量非常重要的标准。
2.2 社会化搜索
随着Facebook的逐日流行,社交网络平台和相关应用占据了互联网的主流。社交网络平台强调用户之间的联系和交互,这对传统的搜索技术提出了新的挑战。传统搜索技术强调搜索结果和用户需求的相关性,社会化搜索除了相关性外,还额外增加了一个维度,即搜索结果的可信赖性。对于某个查询,相关的搜索结果可能成千上万,但是如果是处于用户社交网络内其他用户的信息、点评的评论或者验证过的信息则更可依赖,这是与用户的心理密切相关的。社会化搜索即结合了这种相关性和可依赖性,为用户提供更准确、更值得信任的搜过结果。
社会化搜索的本质是信息过滤与推荐,即对用户的疑问,社会化搜索系统推荐合适的人来回答用户疑问,或者通过社交关系过滤掉不可依赖内容,推荐可依赖内容。根据其他用户和提问者的关系,社会化搜索系统重点关注4类关系:直接有社交联系的成员,比如熟人或者朋友;有相同兴趣的成员;用户所加入网络社区的成员;领域专家。直接具有社交联系的成员对搜索者具有直接影响力,比如购物搜索时对产品品牌的评价;有相同兴趣的成员则形成了有效的信息过滤者或者推荐者;搜索者所在社区的成员从本质讲也是有相同兴趣的成员,对于搜索者的问题能够开有效的信息过滤和推荐;而领域专家则对问题的解答具有权威性。通过结合或者分别使用以上4类社区成员的信息,社会化搜索系统可以给搜索者提供合适的回答者或者值得依赖的信息。
2.3 实时搜索
随着Twittet、微博等微信息的个人媒体平台逐步兴起,对搜索引擎的实时性要求日益提高。微博平台和传统的信息平台比如网页、博客、新闻等相比,有其特殊性。其中一个突出的特点是时效性强,越来越多突发事件的首次出现的微博平台上,比如某地地震或者社会事件,这是有其必然性的。
实时搜索与传统的网页搜索有很大差异。实时搜索的核心强调“快”,即用户的信息能够第一时间被搜索引擎发现、索引并搜索到。传统搜索引擎在实现机制上很难达到这一点,所以实时搜索在搜索引擎的爬虫、索引系统和搜索结果排序方面都有自己独有的特点。在索引构建方面,实时搜索要求第一时间对新的内容进行索引,即用户则信息可搜。这对传统的索引机制提出了挑战,要求索引系统支持在建立索引的过程中,也能够提供搜索服务。
在搜索结果排序方面,实时搜索也有其特点,除了内容相关性要求外,时间因素是搜索排序中首要的考虑因素,很多实时搜索系统默认按时间顺序排序,即最新的信息排在前列。对于一个完善的实时搜索排序算法来说,一般重点考虑以下4方面的因子:
(1)内容相关性:信息是否与用户查询主题相关。
(2)时效性:时间越近的信息,其搜索排名应该越靠前。
(3)信息重要性:越重要或者越流行的信息排名应该越靠前,作为重要性或者流行性的判断指标有很多,比如信息来源是否可靠(微博中信息者的重要性)、被转发次数多少、被评论次数多少等都可以作为判断指标。
(4)社交性:一般来说,微博平台同时也是一个社交平台,微博用户的关注人和被关注人体现了这种社交性。排序时,应该将搜索结果的社交性体现出来,即用户关注人的信息排名应该靠前。
2.4 移动搜索
随着智能的快速发展,基于手机等移动设备的搜索日益流行。移动设备对搜索应用的需求与PC等不同,主要源于其与PC相比资源的有限性,比如手机的屏幕较小,可显示区域不多;手机存储和计算资源能力较弱;手机设备打开网页的速度较慢;手机输入较为烦琐等。所以针对移动设备的搜索需要根据手机等移动设备自身的特点,开发适合其资源和设备的搜索应用。
使用手机搜索与PC搜索一样,由3个步骤组成:用户输入查询,搜索引擎提供搜索结果信息,用户点击打开感兴趣的页面。考虑到移动设备的资源有限,在这3个步骤都要考虑如何增加用户的体验。对于用户输入查询这一环节来说,因为输入难度比桌面设备大,不够便捷,包括移动设备中的中文输入法由于资源所限,智能性不足,所以对于移动搜索来说,如何让用户输入更便捷是最主要的问题。由于移动设备屏幕较小,如何在这么上的展示面积早让用户更快、更直接地找到答案至关重要。所以,移动设备搜索对搜索的精度及搜索结果的展示方式要求更高。如果用户在搜索结果的摘要区域无法获得答案,就必须点击网页,查看页面内容,以搜索引擎目前的搜索精度来看,这步多多少少是难免的。既然如此,目标网页往往内容很多,包含导航栏、广告栏、大量图片等既消耗带宽资源,又与用户搜索内容无关的信息,所以在这上步骤,移动搜索的问题就转化成了如何提供给用户页面中最重要、最相关的部分。搜索系统可以为用户提供加工过的目标页面,通过分析目标网页的结构,自动提取重要内容,只将这部分内容展示给用户,有效增加用户体验。
3 网络搜索引擎的使用技巧
21世纪是信息社会,由于Internet的广泛应用和发展,世界范围内的信息交流、信息资源共享成为现实,网络已成为人们进行交流、获取信息的重要途径。但因特网上的信息内容庞杂,缺乏统一的组织和管理,使用者只有掌握一定的搜索技巧,才能准确、及时、有效地获取自己所需的信息,实现网络信息存在价值,提高信息资源使用效率。
3.1 选择合适的搜索引擎
不同的搜索引擎特点不同,优势不一,信息覆盖范围也有所差异,合理的方式应该是依据检索目的和具体要求选择不同的搜索引擎。如果需要查找综合性、概括性的主题概念,或是对检索准确度要求较高的课题,可以使用目录式搜索引擎。如果需要检索特定的信息,或是较为专、深、具体或类属不明确的课题,应该用关键词索引式搜索引擎。
3.2 适当使用垂直搜索引擎
一个搜索引擎很难收集所有主题的网络信息,很难将各主题都做得精确而又专业。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。比如股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。
3.3 使用元搜索引擎
采用不同的搜索引擎,检索效果的不同,在一个搜索引擎上找不到的信息却可能在另一个搜索引擎上找到,每个单一搜索引擎的搜索范围只能达到整个www资源的30―50%,查准率不到50%。所以,用户常常要切换多个搜索引擎进行检索,并要了解多个搜索引擎,这给用户带来了不便。元搜索引擎通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用一个或多个合适的搜索引擎来实现检索操作,并将检索结果集中统一处理,以统一的格式提供给用户,是对分布于网络的多种检索工具的全局控制机制,查全率和查准率都比较高。
3.4 提炼准确的搜索关键词
使用搜索引擎进行信息搜索,最重要的是关键词的选择,关键词选择得准确与否直接影响到检索效果的好坏。因此,用户提供的关键词必须能准确表达自己的检索意图。尽量不要选择常用词汇进行搜索,尽量不要使用自然语言,尽量使用多个页不是一个关键词。
3.5 使用限制指令
限制指令把检索限制在某些指定的字段内,限制了检索词在数据库中出现的位置,以提高检索效果。如:使用site命令指定在某个特定的网站内查找相关信息,使用inurl命令指定仅在网页的url搜索,使用intitle命令指定仅在网页的title中搜索,使用filetype命令指定搜索文件的特定类型,等等。
3.6 尽量使用“高级搜索”
大多数搜索引擎都提供高级搜索功能,其选项在默认值、灵活性、定位精确性等方面都优于普通搜索功能。利用“高级搜索”中的选项限制可以有效且更加方便地控制检索结果的范围,可以省去用户自行设定检索式的麻烦。搜索引擎提供的范围限制类型大体有分类范围、地域范围、时间范围、网站类型范围,以及其他特殊范围。一些搜索引擎提供了许多特殊范围的限定,如域名后缀(com、gov、org等)、文件类型(文本、图形、声音等)。
结束语:随着科学的进步与技术的发展,Internet上信息数量也越来越庞大,而且含有大量的多媒体信息,如何充分利用这一巨量的信息资源,是用户所渴望和追求的,而通过搜索引擎来查询是查找信息最方便、快捷的途径。但是搜索引擎数量众多、各有所长,使用者应充分利用各个搜索引擎的优势与特点,灵活运用并加以综合利用,以最快捷的方式获得最佳搜索结果。
参考文献:
[1] 马志杰 我国搜索引擎评价研究的现状、问题及对策 图书馆学研究 2013(04)
篇10
关键词:搜索引擎优化;电子商务网站排名;研究策略
中图分类号:TP393文献标识码:A文章编号:1009-3044(2009)26-7404-02
Research on the Search Engine Optimization Srtategy of E-commerce website
WANG Pu, TAO Jian-wen
(Computer Application Research Institute of Zhejiang Business Technology Institute,Ningbo 315012,China)
Abstract: Search engine optimization is very important for E-commerce to promote its role.Based on analysis the factors of impacting the website search engine rank,the SEO strategy of website engine ranking is proposed.
Key words: search engine optimization; E-commerce website rank; strategy
近年来迅猛发展的电子商务,让无数企业从中获得了巨大的商机,在这个电子商务大潮中,搜索引擎优化(SEO)无疑成为了开路先锋。搜索引擎优化就是这样一个角色,它可以把网上的客户带到商家的身边,让商家从无数的
竞争者中脱颖而出。所以说搜索引擎优化在电子商务发展中起着重要的作用。
1 搜索引擎优化
搜寻引擎优化(Search Engine Optimization,简称SEO)是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的提名的方式。由于不少研究发现,搜索引擎的用户往往只会留意搜索结果最开首的几项条目,所以不少网站都希望透过各种形式来影响搜索引擎的排序。所谓“针对搜寻引擎做优化的处理”,是指为了要让网站更容易被搜寻引擎接受。搜寻引擎会将网站彼此间的内容做一些相关性的资料对比,然后再由浏览器将这些内容以最快速且接近最完整的方式,呈现给搜索者。
2 影响电子商务网站搜索引擎排名的主要因素
影响网站搜索引擎排名的因素很多,主要有网站设计的优化、关键词和文本优化、单个网页的优化、网站外部连接的优化。本文主要针对影响电子商务网站搜索引擎排名的主要因素进行阐述。
2.1 购物车系统商品信息的提取
电子商务网站最重要的一个功能就是在线购物,商家当然希望搜索引擎尽可能多的搜索到相应的商品信息。然而现在大多数的购物车系统都是在数据库中存储商品信息,而在访客点击产品链接的时候,网站系统将信息从数据库中读出来呈现在网页上。这个做法不仅方便而且便于管理,也方便访客来进行在线搜索商品。但是它有一个致命的缺点:像google这样的搜索引擎是很难抓取到这样的商品信息,这就像搜索引擎抓取不到存储在数据库里面的网页内容一样。
2.2 关键词的选择
在做电子商务网站推广中,关键词是搜索引擎优化的核心。我们知道,适当的关键词,能给商家带来更多的潜在用户。遗憾的是,许多站点在设计之初或者根本没有考虑关键词策略,或者虽认识到关键词的重要性,但选取关键词时,完全是站在站点和设计人员的角度选择的。这两种做法都是不可取的,相反,我们应该站在用户的角度来选取关键词,因为站点最终是供用户访问的,而不是让站点的设计人员访问的。
2.3 网页标题的优化
电子商务网站的每一个网页都应该有一个能准确描述该网页内容(通常是商品信息内容)的独立的标题,正如每个网页都应该有一个惟一的URL一样,这是一个网页区别于其他网页的基本属性之一。然而根据新竞争力网络营销管理顾问针对103个企业网站调查发现,只有14.5%的网站为每个内容页面设计相应的标题(含并不专业的网页标题),其他超过85%的企业网站中所有的网页都共用一个网页标题,通常为企业名称或者企业名称缩写,其中有些网站甚至没有合理的网页标题。
3 电子商务网站搜索引擎优化(SEO)策略
如何使电子商务网站能够在google搜索引擎上排名靠前,根据笔者对搜索引擎优化的研究,针对电子商务网站的特点,总结出以下基本策略。
3.1 动态网页静态化
我们需要购物车系统制作出的产品网页能够适应搜索引擎,即这些网页必须是静态的,而不是包含数据库变量和问号的网页名称。如下面的所示网页是很少能被搜索引擎收录的:/mn/detailApp/48810956?ref=GT&patid=gau&ud=470956&pdid=b24。而同样内容的网页如下面所示的静态网址,就有很大机会被搜索引擎收录:/mn/detailApp/adr/model/titaniasd.asp。所以在设计电子商务站时,要选择一个能够生成静态网页的购物车系统。美国尚奇公司的zWebCommurce购物车系统不仅能生成静态网页,而且能在各个网页加入seo的网页标签,方便对网页进行搜索引擎优化,使网页更有机会攀升在搜索结果的前列。
3.2 确定关键词的常用免费工具
3.2.1 Google Suggest
/webhp?complete=1,在这个工具上,输入一个搜索关键词后,Google立刻给出一系列相关的词语,并且展示有多少网页使用了这个搜索关键词。这个工具可以帮助商家扩大关键词的选择范围。
3.2.2 Google 关键词工具
/select/KeywordToolExternal这个工具是给那些想进行Goolge竞价广告的客户使用的。但我们从这些用于广告的关键词中,也能够发现人们在平时搜索中可能使用到哪些关键词。
3.3 网页标题优化
3.3.1 关键词的采用和突出
为了让搜索引擎读懂网页标题中所表示的意义,应该将网页标题放置在标签对中。最重要的关键词应该放置在最前列。例如“北京宾馆”、“便宜舒适”和“交通方便”三个关键词作为标题,“北京宾馆”放在最前面,而将第二关键词放在其次,最多不要使用三个以上的关键词。
3.3.2 控制标题长度和关键词频率
标题的长度应该是言简意赅的,英文标签控制在40-60个字母之间,而中文最好在19个字以内。搜索引擎是不看超过一定限度的标题的。关键词的使用应该注意合理地分配到各个网页中。在某页使用的关键词,在其他页就要考虑是否还是那么重要。尽量避免同一关键词反复出现在多个网页的标题中而使搜索引擎感到困惑。
4 结论
综上所述,对于从事电子商务的企业来说,搜索引擎优化是一种让客户自己找到商家的省钱、省力的营销模式。但随着网络技术的不断创新,电子商务网站也需要做出适合自身特点的搜索引擎优化策略,去适应新技术的发展。
参考文献:
[1] 欧朝晖.解密SEO-搜索引擎优化与网站成功策略[M].北京:电子工业出版社,2007:97-98.