网络传播中信息利用
时间:2022-03-11 02:08:00
导语:网络传播中信息利用一文来源于网友上传,不代表本站观点,若需要原创文章可咨询客服老师,欢迎参考。
一数据采掘和知识发现技术
在某种意义上说目前我们不是缺少信息,而是被信息淹没了。在因特网上有无穷的信息和数据。目前的数据库系统和搜索引擎可以高效地实现数据的统计、查询等功能,但是无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的有用的信息、知识、新闻、或新闻线索的手段,导致了“数据爆炸但知识贫乏”的现象。人们需要有新的、更有效的手段对各种大量数据进行挖掘以发挥其潜能,数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为自动和智能地把海量的数据转化为知识、有用的信息、新闻、或新闻线索提供了手段。
数据采掘与知识发现(KDD)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。知识发现(KnowledgeDiscovery)研究的主要目标是采用有效的算法,从大量现有或历史数据集合中发现并找出最初未知、但最终可理解的有用知识,并用简明的方式显示出来。
数据采掘(DataMining)就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、先前未知的、但又是潜在有用的信息和知识的过程。数据采掘在一些文献中有些相近似的名称,如数据开采、发现知识(KDD)、知识采掘、知识抽取、知识考察、数据融合(DataFusion)等。
知识发现是一个从数据中提取出有效的、新颖的、潜在有用的并能最终被人理解的知识、有用的信息、新闻、或新闻线索的过程。知识发现是从数据库和中发现知识的整个过程,而数据挖掘是整个过程中的一个步骤。因为数据挖掘是知识发现整个过程中最重要的步骤,所以我们通常将知识发现和数据挖掘作为同义词使用而不加区分。
数据采掘的工具目前,国外有许多研究机构、公司和学术组织从事数据采掘工具的研制和开发。这些工具主要采用基于人工智能的技术,包括决策树、规则归纳、神经元网络、可视化、模糊建模、簇聚等,另外也采用了传统的统计方法。
知识发现技术可以帮助我们从网上大量的原始数据和信息海洋中,挖掘出能反映其中规律的知识提供新闻工作者和网民。
在知识发现的基础上可以构成虚拟知识共享系统。虚拟团体是一个分布式的组织,它的成员是一组在网络上协同工作的同行,他们依靠网络的支持相互合作、共享知识,可以快速有效地解决问题。新闻工作者之间、网民之间,新闻工作者与网民之间可以构成虚拟团体,进行交互式信息传播,进行新闻、信息、知识的交流与共享。
虚拟知识共享系统包括:(1)先进的知识获取技术。帮助成员搜索、处理知识,从中提炼专家经验。(2)支持多用户的Web开发,以使成员定制自己的Web站点。(3)可以自适应团体需求的自组织式的新闻、信息、知识存储。
二XML
HTML是目前因特网上广泛应用的标记语言。其优点是非常简单;固定的样式;简易且标准的连接;支持表格;编程简单。但是也存在难以扩展;交互性差;语义性差;单向的超链接:链路丢失后不能自动纠正;动态内容需要下载的部件太多;致使搜索引擎返回的结果过多;缺乏对双字节或多国文字的支持等不足。尤其是目前基于HTML的搜索引擎存在着返回结果太多,检索精度差的弊端。而XML可以有效地克服这些不足。
XML句法可标注出文档的结构和目的,这样就可缩小检索范围,提高提高检索精度。例如,用户想购买二手车,就可将查询限制为用于描述“汽车销售”的标识中。
XM能帮助人们辨别模糊词义。自然语言中的词经常多义、多指,网络信息检索系统不能分辨哪一种意思是查询中的,哪一种是文档中的。XML有助于解决词义模糊问题,提高检索的准确性。如,用户使用“brown”作检索词,他有可能想查找由DonaldBrown所写的论文,由BrownUniversity出版的论文,或有关brownbear的论文。如果用户明确想查询[author]Brown[/author],[university]Brown[/university],还是[subject]brown[/subject],就会提高检索准确性。
XML使得能用结构相邻关系来替代物理相邻关系进行检索结果相关性排序。XML可允许利用非文本数据,如数值数据、地理位置、温度值等进行检索。
三智能搜索引擎技术
目前,计算机信息检索功能已经从基本的布尔检索、截词检索、邻近检索、短语检索、字段检索发展为高级的加权检索、自然语言检索、相关信息反馈检索、模糊检索和概念检索。网络信息检索核心工具是搜索引擎。
搜索引擎的目的是帮助新闻工作者和受众寻找信息资源。在因特网环境下,其典型实现是基于关键词匹配的信息检索机制。搜索引擎主要由四部分组成:搜索器,索引器,检索器,用户接口。搜索器的功能是在互联网中发现和搜索信息。它要尽可能快、尽可能多地搜集各种类型的信息,同时还要定期更新已有信息,避免死连接和无效连接。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,建立起自己的物理索引数据库。一个搜索引擎的有效性在很大程度取决于索引的质量。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果,提供用户相关性反馈机制。
搜索引擎的工作原理搜索引擎起源于传统的信息全文检索理论,即计算机程序通过扫描每一篇文章中的每一个词,建立以词为单位的倒排文件,检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率,对包含这些检索词的文章进行排序,最后输出排序的结果。互联网搜索引擎除了需要有全文检索系统之外,还要有所谓的“蜘蛛”(SPIDER)系统,即能够从互联网上自动收集网页的数据搜集系统。蜘蛛将搜集所得的网页内容交给索引和检索系统处理,就形成了我们常见的互联网搜索引擎系统。当然,一个完整的搜索引擎系统还需要有一个搜索结果的页面生成系统,也就是要把检索结果高效地组装成互联网页面。当系统的访问量(PAGEVIEW)变大时,页面生成系统往往会成为整个系统的瓶颈。与传统的信息检索理论研究不同,搜索引擎的用户看重的是系统的稳定性、速度、易用性和返回的信息量及相关度。
据专家评测,目前主要的搜索引擎返回的相关结果的比率不足45%,其原因是现有的Internet搜索引擎拥有极少量的知识,并且是面向最一般的用户模型。不划分知识领域,不对用户建立任何描述以及使用关键词匹配的交互方式,都限制了搜索引擎的使用效率。由此提出了智能搜索引擎的概念。
智能搜索引擎应具有的特点新一代中文智能搜索引擎是一个基于汉语语法、词的上下文和语义等中文信息处理技术,自动收集、识别Internet网上的WWW和News信息,智能化地提取摘要和关键词、建立索引、提供查询和对不良信息的监控、报警功能和网络信息自动发现和查询系统。它以加权的启发式搜索算法控制信息资源的搜集,采用了一种加权的启发式搜索算法,系统根据用户配置的领域导向词和资源服务器所在地域信息,以启发式函数计算每个URL的权值,并选择权值高的URL优先访问。
智能搜索引擎可以根据互联网本身的链接结构对相关网站用自动方法进行分类,再加上结构严谨,萃取精华的开放式信息目录,为每一个查询迅速提供准确的结果。
智能搜索引擎可以预期用户的需求,并可有效地抑制关键词的多义性。如Eastman、Kodak都在尝试在它们的Intranet中使用更加智能化、知识化和专业化的搜索引擎。目前比较成功的智能搜索引擎有FSA,Eloise,InFind,CompassWare和FAQFinder。
InFind是一个类似于元搜索引擎的产品,但支持自然语言、模糊检索,可将结果自动去重、聚类,并可返回对所有搜索引擎并发查询的结果,其检索结果根据分类排列。
芝加哥大学人工智能实验室开发的FAQFinder。它是一个具有问答式界面的智能搜索引擎。在获知用户问题后,它查询FAQ文件以给出比较合适的回答。FAQFinder的内核由五个互联联系的技术环节构成:(1)基于统计方法建立FAQ文件。这是由FAQFinder中的工具Smart完成的。(2)用一个由简单名词和动词短语构成的文法树分析用户的查询,以得到一个用于支持内容匹配的描述。(3)问题识别者(QuestionRecognizer)操作文法树以辨识问题从属的类别。(4)使用语义网分析与概念匹配技术,找出与用户查询最近似的问题。(5)FAQFinder将得到的匹配返回给用户。如果没有近似的匹配,则将使用一个启发式的策略。
智能搜索引擎还可以采用协同式检索方法。该方法一般用于一个特定的用户(如一个或一组新闻工作者、一个新闻媒体、一个或一组受众)。协同式方法有时又称为公众学习方法,它将其他用户的反应反馈给当前的用户。系统不去计算分类项目的相似程度,而是计算用户之间的相似程度。协同式方法不分析分类项目的内容。协同式方法一般用于非文本化的数据,如电影、音乐等,但是也有的系统将其用于文本数据的挖掘,如新闻过滤等。已有一些系统用于电子邮件处理、会议时序安排、电子新闻过滤和娱乐节目推荐。
与智能搜索引擎技术相关的还有信息智能“推”技术和个性化检索技术。
基于网民和新闻工作者访问互联网的特点,在用户拉取信息的搜索过程中,根据其输入的关键词,通过机器学习,可以识别和预测其兴趣或偏好,从而有针对性、及时地向网民和新闻工作者主动推送相关知识和最新信息、新闻和新闻线索。推送的形式可采用频道式推送、邮件式推送、网页式推送或专用式推送。目前已有构造Web访问模式树(WAPtree)的算法,可从大量信息访问日志中挖掘用户访问信息的模式。也可从用户访问文档的超链接来预测用户的访问偏好,其知识发现采用关联性法则。
个性化检索要求能够网络信息检索系统能够学习网民和新闻工作者的兴趣、适应其兴趣的变化并提出检索建议。一般采用分布式Agent技术,例如在客户机上运行用户接口Agent,表示用户个性化模式,在服务器上运行信息检索管理Agent,相当于中介信息检索服务器,实现与各引擎的交互,用户Agent用户开始一项个性化查询quest,通过与个性化模式库中模式的类比学习,产生净化了的个性化检索模式,提交信息Agent协调模块选择相关信息检索。返回的检索结果通过信息滤波,送交显示模块,新闻工作者和网民通过浏览返回的结果,确认是否为感兴趣的文档,若为感兴趣的文档,就提交相关反馈文档模块并进行聚类,产生个性化模式,同时存入该用户的个性化模式库中,如果用户不满意,也可以将确认结果提交给强化学习模块,进行交互学习,进一步净化检索结果。
参考文献:
1匡文波。网络媒体概论,清华大学出版社,2001年4月
2匡文波。网络传播学概论,高等教育出版社,2001年10月