网络爬虫基本原理范文

时间:2023-11-20 17:28:40

导语:如何才能写好一篇网络爬虫基本原理,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

网络爬虫基本原理

篇1

>> ASP网站数据库的安全漏洞和防范策略的研究 GoogleHacking的入侵原理及防范策略 网站数据库的安全防范及对策 主动监听技术原理及防范策略研究 网站统计中的数据收集原理 基于ThinkPHP的野外数据采集系统网站的搭建与研究 学校网站存在的安全隐患及防范策略 GPS数据采集系统的设计及实施研究 视频数据采集系统的原理及其应用 浅析数据采集系统中典型的模数转换原理 典型网络欺骗攻击原理及防范的研究 网站注入式攻击的原理与防范 网站数据库的安全防范及对策浅谈 浅析网站数据库的安全防范及对策 计算机数据安全的探讨及防范策略 基于云计算的数据安全风险及防范策略 测试系统的数据采集及通讯 DLL木马的原理及其防范策略 阀门数据采集系统的硬件研究 基于数据采集平台的高职院校师资队伍建设策略研究 常见问题解答 当前所在位置:l。因此,只需要使用变量替换代表每页地址变化的字符即可获得相应的页面地址。目前,一个Web页面的分页页面中内容的超链接一般表示如下:连接

,只需要编写适当的代码既可以获取该页内容所对应的URL链接。在动态生成的页面中大多数内容页面中都包含相同的html标记,因此可以根据已定义规则的标记提取相关的需要部分的内容。例如:每个Web页面都有相应的标题,代码中呈现为标题,编写相应的MID截取函数就可以获得两个title标签之间标题,也可以用正则表达式来获取,如:body("标题","","")[3]。

图1 网站数据采集基本原理图

3 网站防采集策略

目前,常用的网站数据防采集策略包括以下几种:

1)通过在单位时间内限制固定IP地址对同一个网站所有站点的访问次数来避免网站数据采集。

一般情况下,用户在正常访问某一个网站时不会在极短的时间内多次访问同一个网站,只有网络引擎爬虫和网站数据采集工具会造成这样的现象。但是这种方法容易造成误判,并且如何设计时间的阈值是这种方法的关键。

2)通过人工的方式屏蔽可疑的访问源IP。

网站的管理人员通过在后台设置计数器来记录访问的源IP及在单位时间内的访问频率,进而通过人工干预的方式判断并屏蔽可疑的IP地址。这种方法适用于小型的网站,大型的网站可能需要大量的人力来进行,同时这种方法难以解决通过的方式进行数据采集的问题。

3)将网站的内容以flas、图片或者PDF文档的格式进行呈现。

目前的搜索引擎爬虫和网站数据采集工具还不具备对PDF文档和图片的识别和分析能力。这种方法能够有效地避免网站数据被非法采集,但是它的适用面较窄,仅适用于一些用于多媒体视觉呈现的网站。

4)通过在网页内嵌套藏网站的版权信息或者利用水印技术对Web页面进行加密。

一般情况下,这些用于保护网站数据的信息被写在了相应的CSS文件中。这种方法虽然不能阻止网站数据被非法采集,但它能够使得被采集的数据无法完整的呈现在其他网站中。因为,网站数据采集工具或网络爬虫一般不会同时采集网站中的CSS文件,那些数据丢失了相应的格式化设置,就被显示出来了。

5)通过在网站中对访问者设置权限来保护数据。

这种方法要求用户只有在登录了系统后才能够浏览网站的数据。自动化的数据采集工具和网络爬虫无法对每一个网站进行登录,这种方法可极大程度上避免数据被采集,但同时网站的用户友好性就降低了。

6)利用脚本语言对网站做隐藏分页设置

由于网站数据采集工具和网络爬虫不会针对一个网站的隐藏分页进行数据的分析,因此,这种方法能够有效地阻止自动化工具对网站数据的采集。这种方法适用于对搜索引擎依赖度不高的网站,同时它无法阻止人工进行网站数据的采集。

7)对于动态的网站,可以采用随机的模版避免非法数据采集。

由于网站数据采集工具是根据网页特定的结构来定位所需要采集的数据,一旦网站的模版出现变更,采集工具中事前设定好的采集规则就会失效,这样就可以避免网站的数据被非法地采集。这种方法造成的问题是破坏网站的用户友好性。

8)在网页中使用动态不规则的html标签代替传统的静态html标签。

在html标签中包含空格和不包含空格的效果是一样的,因此包含和不包含和< div>标签,在页面显示中的效果也是一样的。但是一般的网站数据采集工具中,这两个是完全不同的标记。因此,随机地在每个页面的html标签中添加若干个空格数就会导致网站数据采集工具相应的规则失效。但是这种方法违反了网页设计的规范。

4 结论

随着互联网技术的不断发展和个人PC机的不断普及,越来越多人参与到网站的建设和维护中。如何有效地避免网站中的数据被非法的采集是每一个网管员必须掌握技能。该文主要研究了网站数据采集的基本原理和八种常用的网站数据防采集的方法,希望能为网站的建设和维护提供更多的帮助,。

参考文献:

[1] 巫志勇.基于XMLHTTP的网站数据自动采集[J].福建电脑,2007(01).

篇2

【关键词】小世界模型;社团分析;复杂网络

0引言

随着EMBA教育逐渐为社会各界所熟识,EMBA培养院校的招生工作目前面临巨大压力。从市场竞争的格局来看:一方面,国内EMBA院校已经达到64所,加上境外大学的教学项目,在国内招生的EMBA项目已经近百所,而且还有继续扩大的趋势,未来的竞争会更加激烈。另一方面,随着MBA和其他硕士教育的迅速普及,未来EMBA的申请人数量将呈逐年下降的趋势。这使得市场竞争态势更加雪上加霜,商学院必须有所转变,不能取得某一细分市场优势地位的EMBA项目,或者没有建立自己品牌特色的项目将面临生存危机。

在各培养院校的招生过程中,尤其是EMBA项目的市场调研中,如何在庞大的数据、人际关系网络中找到关键节点,进而通过关键节点寻找到适合EMBA招生的生源群体,是目前EMBA招生环节中的关键问题。当今社会的人际关系网络错综复杂,变化万千,如何对人际关系进行系统性的描述和梳理,划分出相应的群体并研究他们的共同特征,是系统科学中十分关键的问题。复杂网络理论由于其具有小世界、集群等特性,十分适用于对社会网络即人际关系网络中的人群进行分类与描述,进而寻找出人际关系网络的关键节点和群体,为寻找出潜在招生对象提供依据。

1相关工作

现代市场营销职能体系包括商品销售、市场调查研究、生产与供应、创造市场要求和协调平衡公共关系五大职能。对于高等教育市场来看,高等教育提供的产品就是教育,教育市场有市场的需求,同时也具备了价值交换的能力,所以教育活动完全可以与市场接轨参与市场竞争。人际关系网络是一个错综复杂、变化万千的复杂系统。近年来随着复杂网络研究的兴起,人们在这些理论的指导下能够更好的了解和解释现实世界的很多现象,比如反映社区特性的“物以类聚、人以群分”现象、反映小世界特性的“六度分隔”现象,以及反映复杂网络节点的不对等特性的“马太效应”等等。在很好的理解和解释了这些现象的基础上,研究者开始尝试利用这些理论去帮助人们利用这些现象,并开发了很多的实际的应用和系统。例如:城市交通网络、电子商务推荐系统、人际关系挖掘系统等。

近年来,学界关于复杂网络的研究方兴未艾。1998年Watts和Strogatz在Nature杂志上发表文章,引入了小世界(Small-World)网络模型,以描述从完全规则网络到完全随机网络的转变。小世界网络既具有与规则网络类似的聚类特性,又具有与随机网络类似的较小的平均路径长度。二是1999年Barabasi和Albert在science上发表文章指出,许多实际的复杂网络的连接度分布具有幂律形式。由于幂律分布没有明显的特征长度,该类网络又被称为无标度(Scale-Free)网络。而后科学家们又研究了各种复杂网络的各种特性。

在人际关系网络获取方面,由于网络内不仅节点众多,而且关系的分类也多种多样。因此获取人际关系是一项非常复杂的工程,历史上几次比较大规模的实验也仅仅是采用书信或者政府档案的方式,覆盖面十分有限。随着网络的发展,互联网的内容日新月异,互联网成为了最大的非结构化数据库,使从网络中探索人际关系成为了可能。目前网络的关系获取方法主要有两种:关系搜索引擎和社区资源。关系搜索引擎的的基本原理是利用网络爬虫从网页中抽取出人名、地名、机构名以及中文短语,再根据算法计算出他们存在关系的可能性。现阶段国内的关系搜索引擎有微软人立方(http://renlifang.msra.cn/)、雅虎人物搜索和搜搜华尔兹(http://tag.soso.com/)。但是由于网页的来源比较复杂,而且存在重名的问题,得到的结果往往不精确,难以真实的表现出真实的人际关系。第二种搜索方式则是利用网络中现有的社区资源,对其信息进行抓取,得到的信息虽然规模有限,但是可以确定所有节点信息,具有更强的结构化特性,更加符合真实人际关系的无标度和小世界特性。

2基于复杂网络的招生生源社团分析方法

2.1系统的设计目标与创新点

在整个人际关系网络中,存在一些子网,它们对于其内部的节点具有高类聚性,而对于子网外部节点的连接确相对稀疏的特性,我们称之为人群的社团结构。

通过实现社团划分系统,并对真实人际关系网络进行处理和分析,研究复杂网络社团划分技术在未来人际关系网络处理上的潜在应用以及较以前撒网式处理方式的优势。本系统希望能够对招生生源的人际关系网络进行分析,寻找出人际关系中的关键节点以及关键社团信息,以此为EMBA招生生源选取以及宣传广告的定向投放目标选择提供必要依据。

该方法是对传统市场调查分析、广告宣传领域的再思考,相比广泛撒网式的宣传与调查,该方法具有效率高、定位准确、耗费人力物力较少、资源可重复利用性强等优点,十分适合于解决EMBA面临的招生生源困难这一具体问题。

2.2网络社区的选择

选取网络社区需要综合考虑多方面因素:

(1)关系要真实有效,即网络的好友关系能比较客观的反映出现实生活中的好友关系。

(2)关系网络要足够大,仅仅包括几千个节点的网络能够在非常短的时间内遍历完毕,不能够反映出来真实人际关系非常难以获取的特点,不具有研究价值。

(3)关系网络可以比较方便的获得,部分网络社区采用了加密设置,非注册用户不能够获得其他人的好友关系,虽然从技术上可以进行破解,但是存在较大的风险。

(4)社区允许爬虫进行抓取,对于需要的页面不存在robot.txt的限制。

(5)服务器比较强大,可以应对每秒钟几百次(包括爬虫的访问次数在内)的请求。

经过对国内较大的几家SNS(社会性网络服务)网站的测试分析,最终选取了聚友网(http://myspace.cn)作为实验的样本。聚友网是以SNS为基础的娱乐平台,是全球最大的在线交友平台之一MySpace的中国本地化网站,符合以上几点要求,且服务器可供校园网访问。聚友网(Myspace),是以SNS为基础的娱乐平台,是全球最大的在线交友平台Myspace的中国本地化网站,提供免费的微型博客、个人主页、个人空间、电子相册、博客空间、音乐盒视频上传空间等服务。我们所要采用的Myspace网络是从该网站的众多用户中,使用网络爬虫技术获得的其中的13569个用户,网络中包含了99185条关系,两个节点之间的一条边则意味着相应的两个用户之间互为好友关系。

2.3招生生源社团分析系统

招生生源社团划分系统包括爬虫获取信息、关系分析、数据读入、数据显示、社团划分和数据显示六个个部分。网络爬虫系统将分析出的典型社会网络信息,经过关系分析处理,最终存储成为网络原始结构数据。用户可以使用社团划分系统读入已有的人际关系网络数据,并让系统对其进行社团划分。在系统运行算法完毕后,将会自动保存对该人际关系网络社团划分后的最终结果,用户可以通过窗口查看各个社团所包含的派系、节点等信息,被查看的社团还可以用图片的形式显示出来。

其中各模块的功能如下:

爬虫模块:负责从典型社交网络中获取社交信息。

关系分析模块:负责将社交信息之间的关系进行处理并存储形成网络原始结构数据。

数据读入:读入系统需要分析的原始数据。

数据写出:将经过社团划分系统处理后的数据保存到文档中。

数据显示:在社团划分系统中显示社团划分的结果。

社团划分:核心算法,分为2个部分。第一步,寻找原始数据中所有的派系;第二步,通过派系重叠矩阵划分出k-派系社团。

3实验与分析

3.1招生生源社团分析系统

社团划分系统采用了复杂网络社团划分技术中的派系过滤算法为其主要核心。本章主要是使用社团划分系统分析Myspace这一真实的人际关系网络,将获得的社团结果和统计结果与实际情况相对比,测试核心算法在系统中是否正确的运行,并验证得出利用社团划分系统分析学生的人际关系网络,能够得到合理的社团结构,满足寻找潜在生源的目的,为EMBA招生起到提高宣传推广效率的作用。

聚友网(Myspace),是以SNS为基础的娱乐平台,是全球最大的在线交友平台Myspace的中国本地化网站,提供免费的微型博客、个人主页、个人空间、电子相册、博客空间、音乐盒视频上传空间等服务。我们所要采用的Myspace网络是从该网站的众多用户中,使用网络爬虫技术获得的其中的13569个用户,网络中包含了99185条关系,两个节点之间的一条边则意味着相应的两个用户之间互为好友关系。下图展示了Myspace的好友关系图。

图3Myspace网络用户关系展示

3.2系统分析结果

通过社团划分系统对Myspace网络的分析,我们共获得各派系共12446个,派系社团559个。下图为使用社团划分系统分析Myspace网络后,获得的一个17-派系社团结构(k=17)和一个33-派系社团结构(k=33)。

图4Myspace网络的一个17-派系社团(k=17)

图5Myspace网络的一个33-派系社团(k=33)

3.3结果分析

选取Myspace网络社团划分结果中的3-派系社团(k=3)、4派系社团(k=4)和5派系社团(k=5)作为我们的分析目标。

经统计分析,Myspace网络中3-派系社团(k=3)、4派系社团(k=4)和5派系社团(k=5)的社团大小分布图(SizeDistribution)和重叠量分布图(OverlapDistribution)如下图所示。

我们可以看到,无论社团大小分布图还是重叠量分布图都大致满足幂律分布,且随着k值的减小,曲线变得更为平滑。但是当k值比较大时,因为社团较少,所以曲线呈现锯齿状图样,这可能是因为在使用网络爬虫技术对Myspace网站进行数据收集时,由于该网站用户数量十分的庞大,网络爬虫并没有存储所有的用户信息,而只是选取了其中13569个用户来组成的Myspace网络。尽管Myspace网络基本满足应有的小世界及无标度特性,但从上图可以看出,其数据集仍然存在着缺陷。

3.4小结

3.4.1测试结果

首先,系统总体效率需要提高,无论是派系过滤算法还是系统其它功能,在分析Myspace网络中效率都显得比较低,这在之前分析较小规模的网络上并不是十分明显。然后,社团划分的统计结果在大体上还是满足幂律分布的,本文认为这是因为Myspace网络数据集存在的缺陷引起的,并不是因为社团划分系统算法运行的问题。考虑到Myspace网站庞大的用户数量、测试条件与个人能力的限制,总体测试的结果还是可以接受的。最后,尽管派系过滤算法本身的时间复杂度偏高、计算量大,但是在更新更快的社团划分算法开发出来之前,它是分析大型复杂网络社团结构最符合实际要求的算法。

3.4.2应用验证

Mysapce网络规模较大,因此要想直接观察其社团结构是非常不方便的,所以我们采用社团结构的统计特性来进行验证。对社团划分系统分析Myspace网络所获得的社团结构进行统计分析,我们可以看出社团划分系统在大型人际关系网络分析中依然可以获得合理的结果。学校招生应用中,即使面对大规模的学生人际关系网络,也能够得到较为准确的结果,这在提高学校招生宣传的精准度上有良好促进作用。

4结束语

本文通过对市场营销理论的研究,对如何将教育营销理论融入到EMBA招生这一具体问题进行了分析与探讨。本文通过将复杂网络理论引入教育营销中,分析人际关系网络中的复杂网络特性,尤其是其聚集聚团性,并根据该性质设计并实现了一套适用于EMBA招生生源获取的人际关系社团分析系统。对典型的社会网络(Myspace网络)实例的分析结果表明,该社团分析系统可以很好的对人际关系网络社团性质进行发现和获取,为学校招生应用中,即使面对大规模的学生人际关系网络,也能够得到较为准确的结果,这在提高学校招生宣传的精准度上有良好促进作用。

【参考文献】 

[1]张新民.中国EMBA教育透视[J].企业管理,2004(05). 

[2]曾小军.民办高校引入营销理念与招生策略研究[J].教育导刊,2009(09). 

[3]周广训.谈高校营销的特点[J].中国成人教育,2004(09). 

[4]徐芳.教育营销和教育营销战略[J].广东职业技术师范学院学报,2001(1):7. 

[5]林进奎.营销创新与教育营销[J].东岳论丛,2004(03). 

篇3

关键词:搜索引擎;通用搜索;垂直搜索

Internet的发展,给人类社会带来了翻天覆地的变化,将人类文明推向一个新的高度的同时,也给人类提供了无限的商机。它的到来,使信息技术成为当今世界各国发展的主题。Internet的普及,网民数量的猛增,web资源的指数增加,都激励着人们探索新的突破。以服务大众出名的通用搜索引擎为我们指引了方向。它们为无数的网民提供了从无底的web中寻找资源的机会。然而,随着Internet的发展,通用搜索引擎有时很难在庞大的信息库中搜索到准确的信息。它的缺陷,给垂直搜索引擎提供发展的空间,以及无限的潜力。垂直搜索的出现,便是对通用搜索引擎的补充,在未来的时间里,它将与通用搜索引擎相辅相成,服务人类的同时,共享新的金矿。

一、搜索引擎的涵义

所谓搜索引擎,是指在Internet下,网站根据用户输入的查询条件(关键字),自动从web资源里提取出与用户输入条件相关的信息的一类网站。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而达到信息导航的目的。

随着Google(谷歌)、baidu(百度)等搜索引擎在Internet上经营的成功,越来越多的IT企业开始进军搜索市场,经过IT精英的不断开拓新领域,创造新价值。搜索引擎从广义上可以将其划分为通用搜索引擎和垂直搜索引擎。

二、通用搜索引擎与垂直搜索引擎的对比

随着网络的发展,它一方面让我们更容易获取到信息,另一方面,信息的爆炸发展,也彻头彻尾地使我们陷入了无边无际的信息海洋之中。在海量的信息页面之前,我们想要找到自己需要的信息简直就如“大海捞针”。搜索引擎的横空出世让我们有了探索信息海洋的指南针。

(1)通用搜索引擎的最大优点是,实现全文搜索,检索到的信息量大,信息覆盖范围广,同时引擎更新信息速度快。目前Internet上搜索引擎可索引到的网页数量已超过110亿页,由于通用搜索引擎搜索范围的广,导致搜索的匹配度低,命中率低,层次结构不清晰,而且重复连接较多,查询结果信息量大,用户很难在海量的链接结果中找到想要的信息。

(2)垂直搜索引擎是针对某一个特定行业的专业搜索引擎, 是通用搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。

三、垂直搜索引擎的原理及组成

搜索引擎主要由搜索器、索引器、检索器组成。基本原理和主要功能组件方面,垂直搜索引擎与通用搜索引擎基本相同。两者主要的区别在于Spider爬行范围和网页信息处理深度两方面。通用搜索引擎Spider爬行的范围是面向几乎所有网页,而垂直搜索只爬行跟主题相关的网页。因此,垂直搜索引擎能够比通用搜索引擎更快速地找到相关主题的信息。

搜索器(Spider):也称网络蜘蛛、网络机器人等,是搜索引擎的灵魂。它根据特定算法负责抓取网页,从抓取到的网页里采集信息,对信息进行分词,分词根据词语的特殊属性选择分词算法,并将信息与其关联的URL保存进服务器数据库。搜索器必须保证及时的发现新网页,定时的重新采集已有网页信息更新保存数据库数据。

索引器(Indexer):根据搜索器,即网络蜘蛛采集后经过分词等处理后产生的关键字(keyword),建立从关键字到网页URL(统一资源定位器)的关系索引倒排文档,即建立索引数据库。检索器的功能是根据用户输入的查询词,在索引数据库中进行查询词与索引数据库的匹配算法,然后将查询结果按相关程度排序并输出到浏览器上。

除了考虑核心的技术以及采用高效的算法外,必须在用户体验上下功夫如结构化的显示搜索到的结果。比如,Google所使用的Ajax(异步JavaScript)技术,用户输入查询时能够自动提示,还有Google查询后显示的数据,界面上字体等要比Baidu细致一个档次。这些细节的原因,某种程度关系到搜索引擎在市场的占有额。

四、垂直搜索引擎的相关技术

1.页面解析与页面显示排序。

网页地址都是用URL(Uniform Resource Locator统一资源定位器)来表示,获取网页信息,必须找到URL,读取该URL页面的HTML、特定标签,高级的搜索引擎还能对JavaScript语句进行解析。这是因为许多网站直接用JavaScript构建出来,而且随着Ajax技术的流行,很多信息包含在JavaScript标签里,为了提高采集信息的准确率,提高搜索引擎的竞争力,搜索引擎必须提供JavaScript解析器。

页面排序是针对根据用户关键字,查询到的网页列表,采用何种策略将网页列表显示在用户面前,使用户最想知道的结果显示在最前面页数发生的概率最大。主要的算法有:PageRank算法、HITS算法。在排序上,有些搜索引擎(如百度),则加入收费这一方式,使排序成为搜索引擎的一大盈利模式。

2.数据存储及分布式技术。

尽管垂直搜索引擎保存的网页数量相对通用垂直搜索引擎小很多,但是,作为一个优秀的商业垂直搜索引擎,必须在提高性能的同时减低成本,提升竞争力。可以采用数据压缩的技术对数据进行压缩存储,采用数据库技术,如索引等提高数据读取速度,也可以采用分布式技术,通过多台服务器相互合作,以提高数据采集和更新速度。

3.网络蜘蛛的爬行策略。

网络蜘蛛(Robot或Spider)的搜索策略是指当网络蜘蛛搜索到一个文档之后,下一步应该转移到哪一个文档的方法问题。目前比较常见的搜索策略有以下几种策略:(1)IP地址搜索策略;(2)深度优先搜索策略;(3)广度优先搜索策略;(4)深度-广度结合搜索策略。

4.中文分词技术。

在Web应用中,文本处理的速度往往是性能的关键,快速分词具有很大的现实意义。Web文本分词是Web信息处理的基础,如信息检索、摘要形成、网页过滤等都需要对Web文本进行分词处理。Web文本的正文主要由英文和中文构成,由于英文的单词与单词之间有空格,所以不存在分词问题。而中文的每一句中词与词之间是没有空格的,因而必须采用某种技术将其分开。

分词的方法很多,基本上分为两类:第一类是基于字符串的匹配,将汉字串与一个机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。主要有正向最大匹配法、逆向最大匹配法、最少切分等方法。第二类是基于统计的方法,从概率角度出发,单字出现在词汇中联合概率是比较大的,因此当相邻的字越常出现,则越有可能是一个词。基于上述引,对处理的材料进行分析,得到相应的单字出现的概率,然后对相邻的字出现概率进行统计,若远大于单字出现的概率之和,则可能成为一个词。实际应用中,统计分词方法都是与字典结合着来使用的,这样既发挥匹配分词的切分速度快、效率高的特点,对利用了无词典结合上下文识别生词,并能消除歧义等优点。

五、垂直搜索引擎的发展空间

“确解用户之意,切返用户之需” “用户无法描述道他要找什么,除非让他看到想找的东西”,这是消费者(网络使用者)对搜索引擎提出的更高要求。以尽可能多地收集到与专业相关的信息为主要目标的垂直搜索引擎,比通用垂直搜索引擎在Internet上更加贴切消费者的要求。专业化的集定领域的垂直搜索引擎有效地弥补了综合性搜索引擎对专门领域及特定主题信息覆盖率过低的问题。市场需求的多元化,决定着搜索引擎服务的多元化;通用搜索引擎开拓市场上的成功,为垂直搜索引擎的市场战略提供了宝贵的借鉴经验,垂直搜索引擎的特点,决定着它在Internet上占有一席之地,必将成为搜索行业的一大力量。

(作者单位:广州市机电高级技工学校)

参考文献:

[1]王晓伟. 垂直搜索引擎若干关键技术的研究[J].浙江大学学报,2007,(5).

[2]孙卫喜.搜索引擎分析[J].高校实验室工作研究,2007,(3).

[3]李副铭.垂直搜索引擎的研究与设计[D].电子科技大学学报,2009,(9).