网络舆情监测方法范文

时间:2024-03-07 17:46:17

导语:如何才能写好一篇网络舆情监测方法,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

网络舆情监测方法

篇1

以主流媒体为主的网络舆情监测机构是我国目前最成熟的监测机构,也是最主要的监测方式。如人民网舆情监测室、新华网网络舆情监测分析中心等,一些地方主流媒体所属的监测机构也是区域网络舆情监测的主力军,如大众网大众舆情、大江网大江舆情等。这类监测机构依托媒介资源,聚合软件开发、统计学、传播学、社会学、公共管理学、经济学等多学科专业人员,符合舆情监测需要多学科融合的特点。这些监测机构开展网络舆情监测理论研究,点评网络热点舆情,总结其中得失,提升公众舆情素养,并通过这些开展公共网络舆情服务;同时应用其开展公共网络舆情服务的影响及成果对政府部门、企事业单位等提供有偿服务,取得了社会效益及经济效益的双丰收。这类监测机构最具代表的是人民网舆情监测室。该监测室成立于2008年7月,在网络信息搜集上,人民网舆情监测室重视搜索技术的应用,依托人民网舆情监测平台、中文报刊监测系统,辅以公众搜索引擎,在搜索引擎解决不了的区域补充人工监测,形成了网络信息收集的有效模式。人民网舆情监测室率先开通了舆情频道,设立舆情会商室,刊登热点舆情报告,各种舆情排行榜。通过这些方式,就网络舆论情况、网络热点事件的成因及规律,进行分析和总结。这些公共舆情服务,提升了公众的舆情素养,增加了自身的影响力,取得了很好的社会效益。同时,人民网舆情监测室根据不同的客户提供有针对性的舆情监测服务,推广其舆情监测平台,提供舆情分析报告和突发事件咨询顾问服务,指导舆情应对,还编辑发行《网络舆情》杂志,发行价为每年3000多元,被称为史上最贵杂志,目前已发行近20000份。此外还开展培训服务,取得了很好的经济效益。

二、以研究部门为主的监测机构

以高校和研究机构为主的监测机构,如中国人民大学舆论研究所、中国传媒大学网络舆情(口碑)研究所、上海交通大学舆情研究实验室,这些机构兼顾学术研究与舆情监测服务,在数据分析的基础上加以学理分析。如中国人民大学舆论研究所的《中国社会舆情年度报告》、上海交通大学舆情研究实验室的《中国社会舆情与危机管理报告》等从网络舆情的角度注解社会政治、经济、文化等发展态势,在社会上产生了较大影响。虽然,高校、研究部门为主的服务机构较为专业,但也不是万能的,其中很多机构存在覆盖面广、针对性不强或者实践经验欠缺等问题,难以就部门、单位做详细的跟踪、监测分析,往往只有在出现了重大网络舆情时才能提供帮助和参考。

三、以各级政府部门、企事业单位为主的舆情监测机构

随着网络舆论的加强,引起了社会各方对网络舆论的重视。各级政府部门、企事业单位成立舆情监测机构以期通过网络加强了解公众对本部门、本行业的意见建议,减少网络负面舆论对自身的影响。这部分监测机构个体规模不大,数量多,专业性比较欠缺。目前这类监测机构大都由部门及单位所属的宣传等部门代为管理,少有独立的监测机构。监测的方法主要有日常监测和应急监测,监测范围涵盖新闻网站、社交网站、论坛、微博等。日常监测用日报、周报、月报、年报等形式,应急监测就某一舆情事件进行专题监测,以快报、专报等形式呈现。监测手段主要以人工监测为主,也有辅以监测系统监测或购买舆情监测机构的服务等。人工监测无法顾及海量的网络信息,很难对网络舆情作较为全面的梳理、统计、分析,只能就一件事、对一个点作报告。相比之下监测系统、监测信息更有针对性一些,但因目前市场上的网络舆情监测系统本身存在缺陷,所以监测的准确性还有待加强。

篇2

【 关键词 】 Solr平台;舆情;监测系统

1 引言

近年来,全国各地环境污染事件频繁发生,当这些污染事件发生时,民众会在很短时间内通过微博、论坛等网络平台相关消息、描述事件发生状况、评论政府应对措施与各项反应,需要注意的是,这些舆情信息在网络上的传播,会对普通民众的群体心理造成重大影响,如果处理不当还会对环境污染防治工作带来阻力,甚至发生重大公共安全。因此,需要设计并实现面向环境污染舆情的网络舆情话题监测技术,以实现对环保类舆情信息的及时发现,为政务信息公开和网络舆论回应提供技术支持。

环保类舆情话题主要是民众对身边生活环境问题的描述、建议、举报和控诉等的话题,比如工厂偷排污水、工地夜间施工、空气污染严重等。这类话题可由相关关键词的与或关系组合予以监测,例如水污染的话题可以采用“废水、污水、黑水”等关键词匹配。但在实际实现时,每类环保类话题的关键词数量都较多,关键词之间的与或关系描述比较复杂,采用传统的数据库结合文本关键词匹配的技术会遇到处理速度慢、与或等复杂逻辑匹配实现难度大等难题。

针对这些问题,本文提出采用Solr平台设计并实现环境污染网络舆情监测系统。Solr是由Apache基金会设计开发的基于Lucene的文本检索平台,利用Solr的索引和检索功能够快速查找文本,并可实现较为复杂的查询逻辑。通过实际数据的实验验证,本文所述技术具有执行速度快、复杂匹配逻辑实现难度小等优点。

2 Solr平台简介

2.1 Solr概述

Solr是一个基于Lucene的企业级全文搜索平台,它支持层面搜索、高亮显示和多种格式数据输出等功能。2006 年,Apache Software Foundation 在Lucene项目的支持下设计实现了Solr平台,并使Solr成为Apache的孵化器项目。在整个项目孵化期间,Solr 稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人,并于2007年1月正式成为Apache的子项目。

Solr具备高效灵活的缓存查询、强大的全文检索、垂直搜索、相似文献查找、配置灵活、支持多种客户端语言、索引复制、高亮显示搜索结果、日志记录、可扩展的插件体系等功能。

2.2 Solr体系架构

Solr作为一个完整的全文检索平台,具有三层体系架构。

1) 底层是全文检索工具Lucene,主要为文件建立索引、提供文本分析接口和实现高效查询。此外,底层的索引复制模块是一个独立的模块,主要用于支持分布式的索引和检索。

2) 中间层是Solr的核心层,主要包括索引处理部件和配置文件。最主要的配置文件是Solrconfig.xml和Schema.xml。Solrconfig.xml从整体上对系统进行了配置,例如索引的存放路径、字段的最大长度、写锁的超时时间、锁类型、是否压缩索引、内存索引缓冲区大小、合并因子、删除策略、自动提交策略、缓存设置等。Schema.xml主要是对索引的配置,例如分词器、字段名称、索引方法、存储方式、分词方式、唯一标识字段等。索引处理部件是在系统主动或被动的接受特定数据,按照配置文件转化成索引后用来进行实际操作的部件,例如,进行搜索、相似文献查找、拼写检查、分面检索等。

3) 上层是HTTP请求接受、处理和请求结果返回层。HTTP请求处理器根据接受到的不同请求,确定要使用的SolrRequestHandler,然后通过Solr核心层处理请求,并以XML、JSON等数据格式返回请求结果。

3 环保类舆情话题监测系统主要模块

本文所实现的环保类舆情话题监测系统的主要模块包括三个部分,分别是中文分词、创建索引和话题监测。

3.1 中文分词

中文自动分词是建立索引库的前提。中文文本中词与词之间没有天然的分隔符,这就要求在对中文文本进行分析前,需要先将整句切割成小的词汇单元,才能将文本划分为特征项并添加进索引库。在全文检索系统中,中文分词系统的速度直接影响到系统建立索引和检索文档的效率,所以需要从众多可用的分词工具包中选择符合本系统需求的中文分词系统。

目前常用的分词工具包有StandardAnalyzer、ChineseAnalyzer、CJKAnalyzer、ICTCLAS和IKAnalyzer,其中IKAnalyzer的分词方式为正向粗粒度词典匹配或正向细粒度词典匹配,由使用者根据需要指定,当遇到未被词典收录的词语时则使用二元分词方式切分。IKAnalyzer的自定义词典功能比较强大,既可以通过词典文件预先批量添加词语,也可以通过调用API的方式实时添加;同时,IKAnalyzer的分词速度和分词准确率也比较理想,可以满足本系统开发的需求。通过对分词效果、分词速度、词典的扩展性、开发难度等方面进行综合考虑,最终选择IKAnalyzer作为本系统的分词器。

3.2 创建文本索引

本系统是通过Python脚本语言来实现Solr索引创建的。首先连接Solr,然后用Solr的Add命令从数据库里将上一次索引时间之后所有新增加的舆情数据添加进Solr。接着执行Commit命令以提交任务。那么,Solr就会自动完成对新提交的文本数据创建索引。

3.3 话题监测

索引建立之后可以根据每类话题关键词的逻辑匹配规则在Solr中进行话题监测处理。

在话题监测前,首先判断这个话题是否已经基于关键词查询过,如果查询过,则接着在上次查询时间之后新增的索引文本上查询,否则查询所有文本。

在话题查询时,根据Solr的查询命令并结合实际需求构造一个查询条件,如按关键词和索引时间范围构造的查询条件为:query = "(%s) AND index_time:[%d TO *]" % (keywords, secs),然后根据该查询条件实现Solr上相关话题文本监测。

4 实验结果与分析

4.1 评价指标

实验结果评价指标为准确率(Precision)、召回率(Recall)和F1值。准确率指标代表的是识别准确性,召回率代表的是方法判断结果的查全率。理想的情况是准确率和召回率都很高,但在实际情况中,两个指标很难同时被提高,提高准确率往往以降低召回率为代价,而提高召回率往往也要牺牲准确率,因此设计方法时往往根据实际需要重点关注其中一项指标。在本系统中,环保类话题识别与监测的主要作用是找到与人工设置的话题关键词相匹配的文本,所以本系统在保证一定召回率的前提下更强调准确率指标。

4.2 实验分析

通过人工方式设置了3个话题类型,实验数据集为从网络舆情源数据中随机获取的文本20000篇,其中包含3类环保类舆情话题文本共3272篇,作为背景噪声的无关文本16728篇。话题的相关情况如表1所示,采用本文所述技术的实验结果如表2所示,在DELL R420服务器上执行话题监测处理时间仅为0.27秒。

实验结果表明,基于Solr平台的环境污染舆情话题监测系统能够比较有效的发现网络舆情数据源中与设定话题相关的发帖文本。需要注意的是话题识别与监测方法的效果受话题关键词的影响比较大,所以关键词的设置既要求准确又要求全面,根据环保舆情监控的地域因素,还要考虑当地人对某件事物的俗称。

5 结束语

本文通过研究建立基于Solr平台的环境污染舆情话题监测系统,认为建立中文分词、创建索引和话题监测三个主要模块能够比较有效的发现网络舆情数据源中与设定话题相关的发帖文本,实验结果表明本文所述系统可有效满足环保相关部门对环境污染网络舆情话题监测的需求。

参考文献

[1] 黄翼彪.实现Lucene接口的中文分词器的比较研究[J].科技信息,2012,(12):246-247.

[2] 姚晓娜,祝忠明.基于分面搜索引擎Solr的机构知识库访问统计[J].中国科学院国家科学图书馆兰州分馆,2011,209(8):37-40.

[3] Apache Solr官网.http:///solr/.

[4] 薛峰,周亚东,高峰等.一种突发性热点话题在线发现与跟踪方法[M].西安交通大学学报,2011,45(12):64-69.

[5] MOHD M,CRESTANI F,RUTHVEN I.Design of an interface for interactive topic detection and tracking[C]//Flexible Query Answering Systems 8th International Conference on.Berlin,German:Springer,2009:227-238.

篇3

随着广播电视行业的不断发展,播放的内容越来越丰富,播出的方式也越来越多样化,广播电视的监测监管工作就变得更加的困难,大量的数据存储、应用越来越个性化以及软件功能极其强大等,都大大冲击着传统的监测监管技术,迫切地需要监管异常技术的变革,从孤立的、单一的监测模式向全网络、全方位监测方向发展。当前,国内的广电监管监测主要包括技术和内容两方面的监测。技术监测靠的是子系统对技术指标进行监测,包括卫星广播电视、有线数字电视以及有线模拟电视等技术,同时还要监听监看广播和电视播出的效果和质量,能够及时发现各套节目在播出期间出现的质量异常等情况。而对内容的监管,就是要借助互联网电视、广告监管以及舆情系统等监管系统,来实时监测各套电视节目或者网络音频,及时监测出各频道播出的内容。

二、大数据的介绍

(一)概念

大数据技术是一种借助搜索引擎以及数据库等,将搜索、分析、分类等集合于一体的技术。各个领域的专家通过计算机高速运算功能,并加上自己的研究和判断,对某一事件和事物能进行精确地分析,并能预测到事物一定范围的发展。大数据技术的应用,使得大批量的数字信息在瞬间的到分析成为可能,使我们对于商业、新闻以及教育等各个方面的认识产生了颠覆性地变化。如果保持对用户数据的跟踪,就会发现各种看似毫无关联的人或事物,都会存在着千丝万缕的联系。尤其是近几年,微信、微博等社交网络的盛行,人们通过它们进行交流和沟通,传播了大量的信息,服务器通过记录他们的使用时间、地理位置以及朋友群等,并在此信息基础上进行数据分析,就能准确掌握这类人的活动范围等信息。

(二)特征

大数据的特征主要体现在四个方面,也可以概括为四“V”。第一,数据量庞大(Volume)。数据量大主要包括计算量、存储量。计量单位常用TB级、PB(1000个T)和EB(100万个T),甚至是ZB(10亿个T)来计量。第二,数据类型(Ve-racity)繁多,文字、图片、音视频等各种信息都属于大数据的信息类型。第三,数据的处理速度(Velocity)快,在这种庞大的数据量中,数据的处理和存储速度都是具有极高的要求,也成为大数据与传统数据的最典型的特征。第四,数据价值(Veraci-ty)密度极低,数据的价值密度高低和数据总量成反比。虽然数据的量很大,但是其中有价值的信息却较少,并且其中的价值都是通过挖掘后才发现的。

三、大数据技术在广播电视中的应用

大数据蓬勃发展的今天,应紧跟时代的发展,充分抓住它带来的机遇,推进广播电视的监测监管工作。

(一)采集数据

传统的应用到电视监测监管系统,彼此之间相互独立,系统之间缺乏联系,各个系统仅仅负责监测工作中的固定内容,并且系统运行期间产生的技术指标、音视频以及业务数据等内容也基本无关联之处。在传统的监测业务中,一致采用轮询监测模式,由于条件的局限性,难以实现所有数据的分析和收集。在监测期间,轮询监测虽然存在一定的可行性,但是也有一定的弱点。如果某个频率突然停播,不能及时监测到这个频道停播的可能性,而且起止的时间也存在着差异。在实际的工作中,起止时间都是通过人工核算的。要使得广播电视获得全方位的监测,就必须采用大数据技术。将所有节目的数据都收集起来,并增加监测技术的指标,增多音视频的存储,发生停播时,能迅速地判断停播的原因,判定影响的范围以及起止时间等。同时,还要依据历史数据寻找问题的根源,做好预防措施,降低事故发生的概率,使得播放的质量和效果得以提升。

(二)统计分析数据

面对当前海量数据,需要根据业务需求,进行数据的统计和分析。这里就要用到大数据技术对数据资源进行存储和开发,为广播电视的监管和监测提供必要的服务。对于广播电视的监管,除了要搜索系统来查找到违规的内容,对网络中的音视频进行监督,一旦发现违规的行为,就要采取行动主动制止,根据用户的行为习惯,可以减少恶性发生,缩小它的传播范围。对于广播电视的安全工作,可以依靠大数据进行事后查证。比如根据录像可以查找大影响的范围,最终统计数有多少用户受到影响。也可以通过相关的数据分析,预测事故的发生,降低事故带来的损失。比如,通过对过去的播出事故出现的时间和原因进行分析,根据发射机运行的天气、光纤以及时间等各种条件,预测出可能会出现的播放事故。这些预测都是建立在丰富的数据的基础上的,因此,一个完善的事故数据库,对于后期的播放管理有极大的帮助,实现对广播电视的监管监测的目的。

四、结语

在实际的电视监管监测期间,通过运用大数据技术,对存储的数据以及录音录像等信息进行提取和更深层次的开发,采用创新思维,研究和开发出新型软件,全方位实施掌握广播电视的动态,并根据互联网的数据以及监看监听的获取的数据等,及时掌握节目的倾向,为决策部门掌握实时的舆情以及做出决策,提供重要的参考。

作者:郝嘉 单位:国家新闻出版广电总局

参考文献:

[1]邴岩.基于大数据的广播电视技术转型[J].西部广播电视,2014(22):43.

[2]陈思.基于大数据的传播效果分析实践与理论研究回顾[J].新闻传播,2013(7):74-76.

[3]汪花,冯瑞,张贞桂.面向大数据分析的广播电视节目内容监管方法研究[J].广播电视信息,2016(1):42-45.

篇4

关键词:图像篡改;数字图像;盲取证技术

中图分类号:TP391.41

随着数字化时代的到来,人们越来越多的利用数字技术进行图像的处理和开发,使得人们可以欣赏到各种美妙的图像,提高了人们的生活品质。但是这些图像处理技术有有利的一面,必然存在有害的一面,同样给人们的生活带来困扰,伪造和篡改各种图像进行欺诈等行为,给人们的生活带来了不少不安全因素。针对这些困扰,通过进行研究开发了许多进行伪造图像鉴定的技术,对图像进行检测,辨别真伪。

1 数字图像的篡改主要分类

数字图像的伪造手段多样,基本可以分为几个类型,包括图像的合成、润饰、增强、变种、绘画和计算机生成这六个基本类型。后期经过研究又增加了三种类型,图像携密篡改、二次获取图像及数字图像版权篡改这三个种类。通过对伪造手段的分类最终归纳了四种篡改类型,图像真实性篡改、原始性篡改、完整性篡改以及版权篡改这四个部分。篡改的内容较多,但是我们研究的重点在于对数字图像内容的篡改作为重点,其又分为内容的真实性篡改和完整性篡改两类,如图1所示。

图1 篡改分类模型

1.1 内容的真实性篡改

数字图像的真实性实际是图像真假的一个问题。篡改者的目的就是将图像变成与真实图像不符的图像,以达到其篡改目的。篡改技术主要有图像拼接、图像增强、图像润饰以及图像的变形几个种类。

1.1.1 将两幅图像进行具有标志特征的点找出并利用技术手段变为另一幅图像中的特点的方式就是图像拼接。进行两幅图像相关特征点的寻找是进行图像拼接的关键,将两者的对应特征点进行相应的叠加,也就兼顾了两幅图像的相关特征。作为图像篡改中非常常见的一种篡改手段,图像拼接可以将两幅或者更多的图像上的特点,根据篡改者的目的合成到一张图像上去。

1.1.2 图像的润饰主要作用是对篡改后图像篡改痕迹的清除,这当然是发生在图像拼接后。进行图像润饰的主要技术手段是进行篡改区域进行模糊、锐化、羽化、修补等清除痕迹的措施,经过润饰后就会使图像的欺骗性更强。

2 图像篡改检测

根据篡改方式,图像拼接就包含了复制、粘贴以及旋转缩放,如图2示。

图2 图像拼接取证技术模型

图像拼接就必然进行复制粘贴的操作,为了获得图像的良好角度,旋转与缩放的操作也是必不可少的。复制粘贴含有两种形式,一种是同一图像内的复制粘贴,另一种是不同图像的复制粘贴形式,图像内的粘贴必然会导致同一幅图像中的图像数据发生变化,不同图像间的复制粘贴必然导致不同区域具有不同的来源特征或不同的图像统计特征;而旋转缩放必然导致重采样,所以从这些角度着手可以对拼接篡改进行有效检测[1]。

2.1 复制粘贴操作在同一图像内

图像篡改在同一个图像内的复制粘贴必然存在篡改区域相同的图像区域,将图像进行分区分析,运用匹配搜索的方式进行检测图像篡改内容的操作,当前的研究者主要运用这个特点进行篡改的检测工作。

2.2. 不同图像间的复制粘贴工作

将两张或者更多的图像进行各自部分的拼接,并在一张图像上进行呈现的操作,进行一个整体图像的伪造过程,达到一个新的效果。这种篡改方式应用非常广泛,造成的影响更大,比copy-move的操作更加广泛。由于其在进行篡改过程中,多张图像的线条和色彩有着明显的区分,因此其更容易留下篡改痕迹。

2.2.1 基于光源方向不一致性的方法。取自两幅或者以上图像区域的图像,其光照方向必然存在不一致的现象,所以,对于图像中每个物体或区域的光照方向,经过判定不同物体或者不同区域都具有不同的光照方向,我们可以认定物体的光源不同或者区域的光源来源不同。Mahajand根据这个原理,提出了基于球面频率不变量的检测图像光照一致性方法,其缺点是只能进行光源二维方向的检测,且在阴天等直接光源缺乏的情况下不适用。

2.2.2 基于双相干特征和边缘百分比特征检测方法。首先提出双相干幅度和相位特征进行检测篡改图像的是Ng,但是这样直接应用的检测效果不是很好,精度较低。Ng为了将检测效率提高到一个新的水平,相继提出了对双相干敏感特征进行刻画,以及拼接不变量的估计两个新的基本方法,这就重新认定了新的特征,包括双相干幅度和相位变化的也测残差特征以及边缘百分比特征这三个内容。这样检测准确率得到了显著提高,不过其在完整有现实意义的图像检测上还需要提高,并作后续处理。

3 结束语

通过图像篡改的基础原理的分析,进行相关的检测取证要有的放矢,必须从照片形成机理和其固有特性上分析,并发掘出鉴定方法,逐步提高在图像篡改盲取证领域的技术水平。

参考文献:

[1]吴琼.面向真实性鉴别的数字图像盲取证技术综述[J].自动化学报,2008.

[2]徐亮.数字图像拼接篡改盲取证技术研究[J].电子设计工程,2012.

作者简介:许柯(1976.09-),男,湖南衡阳人,讲师,研究生,研究方向:信息安全、电子物证、舆情监测。