网络舆情分析研究现状范文
时间:2023-05-30 16:11:28
导语:如何才能写好一篇网络舆情分析研究现状,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
中图分类号:TP393文献标识码:A文章编号:1009-3044(2011)04-0759-03
The Design of the Detection and Analysis of Public Opinion Intelligent Network System
YANG Qiu-ping
(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)
Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.
Key words: intelligent detecting and analysis; network public sentiment; data mining
随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网络言论活跃已达到前所未有的程度,不论是对国家政策的讨论,还是针对国内或国际的重大事件,都能马上形成网上舆论,这种网络来表达观点、传播思想产生舆论压力,达到任何部门、机构都无法忽视的地步。
网络舆情通过BBS论坛、博客、新闻跟贴、转贴等形式对现实生活中某些热点、焦点问题等进行反应,其中不乏较强影响力、倾向性的言论和观点。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。对相关政府部门来说,如何加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。
1 系统价值
1.1 社会效益分析
网络舆情智能监测与分析系统利用数据挖掘技术实现对网络舆情的统计分析,并以此作为网络舆情监测的管理的依据。具体作用表现在以下几个方面:
1) 系统向决策者提供客观、准确的舆情信息,有利于决策者做出正确的决策
2) 系统向决策者提供系统的、高效的、综合的、全面的舆情信息,便于决策者全面的、正确的把握所需的信息, 提高决策效率, 启迪决策思维
3) 系统能提供各种舆情的趋势分析信息给决策者
1.2 经济效益分析
目前,由于互联网的日益普及,各种舆情的不断涌现,好的、坏的都有。政府部门、大型机构、社会企业等都希望能尽早识别不良倾向的、带有煽动或甚至含有社会危害的言论,或者是获取政策落实、制度实施效果等信息。这些需要揭示了系统建设在带来巨大的社会价值的同时带来巨大的经济效益。
2 同类系统现状
基于目前的网络现状,为数不多的网络舆情监测系统基本上是采用关键词搜索进行舆情信息检测,由于关键词搜索的查全率和查准率都不高,因此网络舆情监测的效果不够理想,更是无法自动发现新的舆情点。
部分网络舆情检测系统只是在企业内部使用,无法适用于政府部门等大型机构,部分系统采用的算法效率低,不能快速对数据进行处理,因而无法满足超大网络环境下的舆情检测与分析,无法做到自学习成长,没有类似知识库的自动累积处理功能,必须人工协助处理。基于此种情况,提出创建《网络舆情智能检测与分析系统》项目来解决这些问题。
3 网络舆情智能检测与分析系统简介
该系统核心部分包括信息获取、信息处理、前端信息展现几个部分。实现从网页获取数据,利用数据挖掘技术对数据进行清洗、提炼、分析总结,最终形成决策信息并存入数据库中,提供灵活的前端查询机制,把信息传递给决策人员。
网络舆情智能检测与分析系统实现以下目标:1) 对热点话题、敏感话题识别。2) 实现倾向性分析。3) 实现对舆情主题的跟踪。4) 自动形成舆情摘要。5) 形成趋势分析报告。6) 自动识别突发事件及发展趋势。7) 对敏感内容实现预警。8) 提供舆情分析统计报告提供决策支持。
4 系统关键技术研究
4.1 网络舆情行为模式识别技术
对于“行为模式识别”算法应用最广和成熟的是防垃圾邮件的“行为模式识别技术”。在垃圾邮件的行为模式识别技术的基础上,根据网络舆情的特点,舆情内容内在结构关系、演化规律等基础信息,收集网络上典型的热点话题、敏感话题、政策热议等方面的适当数量的文章组成行为识别学习训练库,利用网上话题的热度、焦度、敏度、频度、锐度、歧度、粘度等度量指标作为舆情分析的依据,配以科学的算法,通过对“训练库“进行学习及总结、计算,结合网络舆情信息产生和传播的典型行为特征,建立网络舆情行为模式数学统计模型,以此实现网络舆情的智能发现。
4.2 自动分类和聚类技术[1]
自动分类是指按照已有的分类,把相关信息按照分类的标准进行归类。聚类则事先没有定义特点的分类及标准,是在分析过程中利用一定的算法,把类似的内容进行自动划类并聚合的处理过程。
根据舆情分析的特点,本系统基于统计的自动分类技术,利用向量空间模型来表示舆情分析的文档。对舆情文档特征进行抽取和加权、机器学习。在处理过程中,考虑到不同位置出现的语词的价值不同而给定不同的加权系数。机器学习的方法主要有支撑向量机、最近K邻居方法和贝叶斯算法[2] 等,可以根据舆情文档的特点而选择相应的方法。
舆情文档自动聚类的关键步骤有文档表示、相似度计算、聚类和给出聚类标识等。常用的聚类方法有单遍聚类法、逆中心距聚类法、密度测试法、图聚类法等。在网络舆情分析中,根据舆情分析的目的,选择那些最具有区分性的特征,而不是大多数文档都具有的特征来实现自动聚类。
在本系统解决方案中采取了自动归类和自动聚类相结合的方式,先进行自动归类,再在各类别之下进行自动聚类。
4.3 内容分析技术
内容分析法是一种对于传播内容进行客观,系统和定量的描述的研究方法。其实质是对传播内容所含信息量及其变化的分析,即由表征的有意义的词句推断出准确意义的过程。内容分析的过程是层层推理的过程。随着信息技术的发展,计算机的性能不断提高,各种内容分析技术也逐渐成熟,为网络舆情的深度挖掘分析奠定了很好的基础。
《内容分析法:媒介信息量化研究技巧》[3]一书提供了系统全面的内容分析研究的操作指南,深入分析了内容分析中的各种常见问题,如测量、抽样、信度、效度和数据分析中的各种技术。在进行网络舆情内容分析前,获取相关网络舆情数据,经过数据清洗,获取有针对性的、信息量大、覆盖全面的、连续的内容样例,定义分析单元。对数据进行量化处理形成评判记录和进行信度分析两部分内容,再根据网络舆情建立合适的维度,最后进行统计分析,并形成分析结论。
5 系统实现
在系统开发过程中,要建立了若干知识库,利用垂直搜索、知识发现、自动分词和抽词、自动分类和聚类、内容分析等技术,实现对海量网络信息进行监测、网络舆情的自动发现和分析。该系统建设的核心是要收集围绕主题的、足够量的数据,并经过整理形成规范数据再进行挖掘,输出有用的决策信息,系统结构图如图1所示。
系统涉及五个主要方面:
5.1 数据收集处理
进行网络舆情分析的前提是获取基于某个主题的、数量足够多的、完整的网络数据。为了解决这个问题,系统建设时考虑通过建立数据收集规则来达到此目的。在数据收集规则时主要考虑要收集的主题、要搜索的范围、更新频度、收集要到达的数据量等。
在规则制定后,信息收集组件利用类似“网络爬虫”的技术,按照已经设置的收集规则,到网络上进行数据收集。 数据收集后按照主题归于相应的数据库中,以便下一步的数据处理。
5.2 信息处理模块
需要把收集的数据转为有用的信息,在收集到相关数据后,先期对已经收集完成的数据进行格式化、数据清洗、信息处理加工等步骤,最终形成规范的、适于统计的数据。然后再利用数据挖掘技术对数据进行挖掘,形成相应的统计信息,便于查询输出。下面将就关键核心的处理步骤进行说明。
5.2.1 对原始数据的预处理
为了在数据挖掘分析前对数据进行预处理,形成最终有效的待分析数据。首先是继续数据格式化,利用数据格式化实现对各种网页格式的数据进行模式化解析,形成系统统一的数据格式;然后进行数据清洗把“脏”的“洗掉”。该处理步骤主要把不完整的数据、错误的数据、重复的数据等不规范的数据进行清洗,去除无效的、重复的数据,形成数量足够的、时间段连续的、内容围绕主题的数据,为下一步的深度挖掘做准备。
5.2.2 实现对敏感舆情的报警
为了解决相关管理人员需要及时掌握敏感热点或大事件的动态,系统特增加了此处理步骤,在此将利用对敏感热点或大事件的特征进行布控,在布控策略规则中设置需要关注的热点敏感关键字,相关组件将对存储的内容进行扫描、分析。对匹配上的内容进行预警并产生预警记录,同时支持手机和邮件的报警方式,及时把相关信息发送给预设的人员。该模块包括关键字匹配组件、报警处理组件。
5.2.3 数据的深度挖掘分析处理
经过预处理的数据还只是数据,并没有形成有用的信息,所以引入数据挖掘分析处理步骤,以便对数据利用前面介绍的舆情行为模式分析、内容分析等挖掘技术进行深度挖掘及分析,形成系统的核心信息数据,为数据展现提供数据来源。
为了对数据进行挖掘,系统内置的多种数据挖掘算法,实现自动对信息进行分类、总结。具体内容如下:
针对中文信息的处理与分析,系统中的自动分词组件采用词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到99%以上。在语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。利用网络舆情模式识别技术可以自动发现新的网络舆情模式,便于用户尽早布防。
为解决自动分类的难题,系统内置自动分类组件通过对训练库的学习,获取每个分类的属性特征模型,然后使用这一分类体系对未知分类情况的数据进行分类。聚类组件将结构化的数据集合中的数据根据需要统计的主题划分不同的子集,自动学习形成新的分类,满足自动扩展分类的需要。
面对收集的海量数据,如何获取用户所需的信息这个是一个关键问题,系统通过关联分析、趋势分析,从海量数据中挖掘关联规则。同时,利用趋势分析技术,分析网络舆论等随时间的发展趋势情况,以便实现对舆论环境的监测与不良倾向的预警。
做到上面的内容还只是实现了系统的一部分,系统另外提供对新的知识的自动发现。利用自动分类与聚类等技术基础,对知识进行挖掘并汇总分析,能实现对新的网络舆情的发现及获取发展趋势。同时把结果合并到系统已有的知识库,达到不断扩展知识库的要求。
有时候用户会要对特定的事件或舆情进行跟踪,为了解决此问题,通过系统提供的对象跟踪组件,利用用户在系统中设置的需要特别跟踪的对象的特征,在分析过程中对涉及该对象的数据进行特别分析和处理,形成该对象的信息链存储到数据库中,在数据展现时可以通过图表等方式展现对象跟踪链的相关信息。
5.3 海量数据的存储
网络舆情数据量是海量的,如何提高查询的反馈速度是另外一个重要的问题,系统通过建立全文索引技术,对存储在数据仓库中的数据建立合理的索引,使数据查询输出时提高输出速度及准确性,特别是针对重要的关键字进行检索时能大大的提高查询速度。
除了全文索引,数据管理系统的选择是另外一个重点。考察目前已经成熟的数据库管理系统,发现Oracle是最合适的。所以本系统就采用Oracle作为数据存储的数据库系统,同时可以利用其提供的多维查询技术,实现Olap的查询要求。
5.4 数据快速,准确的展现
有了海量的、有用的信息,如何把这些数据展现给用户?在本系统主要考虑对关键字的查询输出、舆情新关键字挖掘查询、舆情报告的输出、报警信息的查询、各种统计报表的输出。
对于输出的技术要求,在数据输出时系统利用Oracle系统的Olap技术结合系统提供的查询页面框架,可以实现用户从多个角度对各类数据的查询,在页面处理上目前市面上已经有相关的成熟的技术可以作为参考,相信不会有技术难点。
针对输出的内容,系统内置了部分统计报表,这些报表是基于网络舆情分析专家在舆情检测与分析方面的专业知识进行设计,能满足大多数用户的需要。为了满足个性化的查询输出,同时系统支持用户自定义适合自己的统计报表。
5.5 通过系统管理功能保证系统正常运行
为了满足个性化的管理要求,系统提供系统设置、角色管理、用户管理、数据备份等功能,支持定义常用的网页结构及识别规则的定义,用于在数据获取后的格式化分析。解决网页结构识别规则定义、报警关键字设置、报警记录接收手机号或邮箱设置、系统管理用户权限管理等内容。
6 小结
该文先介绍了目前网络现状、同时就同类分析产品的不足进行了描述。另外着重从《网络舆情智能检测与分析系统》的两个重点部分进行描述,从最核心的技术与模块组成来阐述系统是如何实现的。
参考文献:
[1] Han J,Kamber M.数据挖掘:概念与技术[M].Morgan Kaufmann,2000.