卷积神经网络的历史范文

时间:2024-04-02 18:04:09

导语:如何才能写好一篇卷积神经网络的历史,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

卷积神经网络的历史

篇1

关键词:深度学习;机器学习;卷积神经网络

1概述

深度学习(Deep Learning)是人工智能、图像建模、模式识别、神经网络、最优化理论和信号处理等领域的交叉学科,主要构建和模拟人脑进行分析学习,它属于机器学习的新兴领域。

2大数据与深度学习

目前,光学检测、互联网、用户数据、互联网、金融公司等许多领域都出现了海量数据,采用BP算法对于训练神经网络出现了梯度越来越稀疏、收敛到局部最小值只能用有标签的数据来训练等缺点。Hinton于2006年提出了深度学习的概念,Lecun等人提出了卷积神经网络,卷积神经网络利用空间关系减少参数数目以提高训练性能。

CPU和GPU计算能力大幅提升,为深度学习提供了硬件平台和技术手段,在海量大数据处理技术上解决了早期神经网络训练不足出现的过拟合、泛化能力差等问题。

大数据和深度学习必将互相支撑,推动科技发展。

3深度学习模型

深度学习模型实际上是一个包含多个隐藏层的神经网络,目前主要有卷积神经网络,深深度置信神经网络,循环神经网络。

1)卷积神经网络

在机器学习领域,卷积神经网络属于前馈神经网络的一种,神经元不再是全连接的模式,而是应用了局部感受区域的策略。然而传统的神经网络使用神经元间全连接的网络结构来处理图像任务,因此,出现了很多缺陷,导致模型⑹急剧增加,及其容易过拟合。

在卷积神经网络中,网络中的神经元只与前一层的部分神经元连接,利用图像数据的空间结构,邻近像素间具有更强的相关性,单个神经元仅对局部信息进行响应,相邻神经元感受区域存在重叠,因此,综合所有神经元可以得到全局信息的感知。

另外,一个卷积层中的所有神经元均由同一个卷积核对不同区域数据响应而得到,即共享同一个卷积核,使得卷积层训练参数的数量急剧减少,提高了网络的泛化能力。

一般在卷积层后面会进行降采样操作,对卷积层提取的特征进行聚合统计。降采样区域一般不存在重叠现象。降采样简化了卷积层的输出信息,进一步减少了训练参数的数量,增强了网络的泛化能力。

卷积神经网络实现了局部特征的自动提取,使得特征提取与模式分类同步进行,适用于处理高分辨率的图像数据。目前,卷积神经网络在图像分类、自然语言处理等领域得到广泛应用。

2)深度置信网络

深度置信网络是一种生成模型,网络中有若干隐藏层,同一隐藏层内的神经元没有连接,隐藏层间的神经元全连接。神经网络经过“反向运行”得到输入数据。

深度置信网络可以用做生成模型,通过前期的逐层无监督学习,神经网络可以较好的对输入数据进行描述,然后把训练好的神经网络看作深度神经网络,最后得到分类任务的深度神经网络。

深度置信网络可以用于图像识别、图像生成等领域,深度置信网络可以进行无监督或半监督的学习,利用无标记数据进行预训练,提高神经网络性能。但近几年由于卷积神经网络的飞速发展,深度置信网络已经很少被提及。

3)循环神经网络

循环神经网络是一种专门用于处理时序数据的神经网络,它与典型的前馈型神经网络最大区别在于网络中存在环形结构,隐藏层内部的神经元是互相连接的,可以存储网络的内部状态,其中包含序列输入的历史信息,实现了对时序动态行为的描述。这里的时序并非仅仅指代时间概念上的顺序,也可以理解为序列化数据间的相对位置。如语音中的发音顺序,某个英语单词的拼写顺序等。序列化输入的任务都可以用循环神经网络来处理。如语音、视频、文本等。对于序列化数据,每次处理时输入为序列中的一个元素,比如单个字符、单词、音节,期望输出为该输入在序列数据中的后续元素。循环神经网络可以处理任意长度的序列化数据。

循环神经网络可以用于机器翻译、连写字识别、语音识别等。循环神经网络和卷积网络结合,将卷积神经网络用于检测并识别图像中的物体,循环神经网络用于识别出物体的名称为输入,生成合理的语句,从而实现对图像内容的描述。

4深度学习应用

1)语音识别

语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。其应用领域主要有语音输入系统、语音控制系统和智能对话查询系统,语音识别极大地推动了人工智能的快速发展。1952年Davis等人研究了世界上第一个能识别10个英文数字发音的实验系统。大规模的语音识别研究是在20世纪70年代以后,在小词汇量、孤立词的识别方面取得了实质性的进展。2012年,微软研究院使用深度神经网络应用在语音识别上将识别错误率降低了20%,取得了突破性的进展。2015年11月17日,浪潮集团联合全球可编程芯片巨头Altera,以及中国最大的智能语音技术提供商科大讯飞,共同了一套DNN语音识别方案。

2)图像分析

图像是深度学习最早尝试的应用领域。1989年,LeCun和他的同事们就发表了卷积神经网络的工作。2012年10月,Hinton和他的两个学生用更深的CNN在ImageNet挑战上获得了第一名,使图像识别向前跃进了一大步。

自2012年以来,深度学习应用于图像识别使得准确率大大上升,避免了消耗人工特征抽取的时间,极大地提升了效率,目前逐渐成为主流的图像识别与检测方法。

篇2

关键词:人脸识别技术;病毒管控;人工智能;神经网络

互联网在今天的社会中发挥着举足轻重的作用。如今社会,随着许多人工智能技术、网络技术、云计算等互联网技术不断发展,像人脸识别等技术的应用越来越广泛,在控制病毒传播途径等场合发挥了巨大作用,不断地提高着社会的安全性和便利性,不仅提高了防控中病毒检测效率,也为病毒的控制提供了可靠的技术方法,能够及时发现和控制公共场所的安全隐患因素,避免对社会经济、居民生活造成破坏,。但目前的人脸识别等技术还存在许多缺陷,需要完善和革新,充满着巨大的潜力和进步空间。

1人脸识别技术研究意义

人脸识别技术是一种生物特征识别技术,最早产生于上世纪60年代,基于生理学、图像处理、人机交互及认知学等方面的一种识别技术。相比于其他人类特征像指纹识别、声纹识别、虹膜识别等技术,人脸识别虽然存在人脸识别单一性低,且区分度难度高、易受环境影响等不足。但是人脸识别技术拥有速度快、大范围群体识别及非接触、远距离可识别等优势,都是其他生物识别识别技术所不具备的,而在传播性强、感染风险大的病毒传播过程中,这些显然是必须要考虑的重要影响因素。通过将人脸识别等人工智能技术引入信息管理系统,综合集成视频监控、图像处理、深度学习和大数据等技术,结合非接触测温、定位等技术,助力病情防控,在一定程度上推动病毒病情防控信息化、智能化发展进程。可作为加强公共场所的人员的体温实时监测、地址信息定位的监控管理,规范公共场所针对病毒传播的预防行为。

2人脸识别技术

2.1人脸检测技术

人脸检测是自动人脸识别系统中的一个关键环节。早期的人脸识别研究主要针对具有较强约束条件的人脸图象(如无背景的图象),往往假设人脸位置静止或者容易获取。人脸检测分为前深度学习时期,AdaBoost框架时期以及深度学习时期。前深度学习时期,人们将传统的计算机视觉算法运用于人脸检测,使用了模板匹配技术,依赖于人工提取特征,然后用这些人工特征训练一个检测器;后来技术发展,在2001年Viola和Jones设计了一种人脸检测算法,它使用简单的Haar-like特征和级联的AdaBoost分类器构造检测器,检测速度较之前的方法有2个数量级的提高,并且保持了很好的精度,称这种方法为VJ框架。VJ框架是人脸检测历史上第一个最具有里程碑意义的一个成果,奠定了基于AdaBoost目标检测框架的基础,使用级联AdaBoost分类器进行目标检测的思想是:用多个AdaBoost分类器合作实现对候选框的分类,这些分类器组成一个流水线,对滑动窗口中的候选框图像进行判定,确定检测目标是人脸还是非人脸。Adaboost框架技术的精髓在于用简单的强分类器在初期快速排除掉大量的非人脸窗口,同时保证高的召回率,使得最终能通过所有级强分类器的样本数数量较少。在深度学习时期,开始将卷积神经网络应用于人脸检测领域。研究方向有两种:一是将适用于多任务的目标检测网络应用于人脸检测中;另一种是研究特定的的人脸检测网络。人脸检测技术具有特殊唯一性和稳定性,在现今社会对于构建居民身份识别系统,病毒传播防控系统,以及计算机视觉交互模型的构建具有广泛的应用。人脸检测技术不仅作为人脸识别的首要步骤,也在许多其他领域发挥巨大影响,如人脸关键点提取、人脸追踪、基于内容的检索、数字视频处理、视频检测、安防监控、人证比对、社交等领域都有重要的应用价值。数码相机、手机等移动端上的设备已经大量使用人脸检测技术实现成像时对人脸的对焦、图集整理分类等功能,各种虚拟美颜相机也需要人脸检测技术定位人脸。评价一个人脸检测算法好坏的指标是检测率和误报率,我们定义检测率为:算法要求在检测率和误报率之间尽量平衡,理想的情况是达到高检测率,低误报率。

2.2人脸识别技术

目前主要流行的人脸识别技术包括几何特征识别,模型识别,特征脸识别和基于深度学习/神经网络的的人脸识别技术等。人脸特征识别主要通过对人脸面部结构特征如眼睛、鼻子等五官几何特点及其相对位置分布等,生成图像,并计算各个面部特征之间的欧式距离、分布、大小等关系该方法比较简单,反应速度快,并且具有鲁棒性强等优点,但是在实际环境下使用容易受检测的环境的变化、人脸部表情变化等影响,精度通常不高,细节处理上不够完善。模型识别技术主要包括隐马尔可夫模型、主动表象模型、主动形状模型等,识别率较高,并且对表情等变化影响较小。特征脸识别来源于主成分描述人脸照片技术(PCA技术),从数学上来讲,特征脸就是人脸的图像集协方差矩阵的特征向量。该技术能有效的显示人脸信息,效率较高。基于深度学习的人脸识别是获取人脸图像特征,并将包含人脸信息的特征进行线性组合等,提取人脸图像的特征,学习人脸样本数据的内在规律和表示层次。可以采用如三层前馈BP神经网络。BP神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是应用最广泛的神经网络模型之一。BP网络本质上是一种能够学量的输入与输出之间的映射关系的输入到输出的映射,从结构上讲,BP网络具有输入层、隐藏层和输出层;从本质上讲,BP算法就是以网络误差平方为目标函数、采用梯度下降法来计算目标函数的最小值。BP神经网路输入层有n个神经元节点,输出层具有m个神经元,隐含层具有k个神经元,采用BP学习算法训练神经网络。BP算法主要包括两个阶段:向前传播阶段和向后传播阶段。在向前传播阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是在网络完成训练后正常运行时执行。将Xp作为输入向量,Yp为期望输出向量则BP神经网络向前传播阶段的运算,得到实际输出表达式为向后传播阶段主要包括两大步骤:①计算实际输出Op与对应理想输出Yp之差;②按极小化误差方法调整带权矩阵。之所以将此阶段称为向后传播阶段,是对应于输入信号的正常传播而言的,因为该阶段都需要收到精度要求进行误差处理,所以也可以称之为误差传播阶段。(1)确定训练集。由训练策略选择样本图像作为训练集。(2)规定各权值Vij,Wjk和阈值Φj,θk参数,并初始化学习率α及精度控制参数ε。(3)从训练集中取输入向量X到神经网络,并确定其目标输出向量D。(4)利用上式计算出一个中间层输出H,再用本式计算出网络的实际输出Y。(5)将输出矢量中yk与目标矢量中dk进行比较,计算输出误差项,对中间层的隐单元计算出L个误差项。(6)最后计算出各权值和阈值的调整量。所以,卷积神经网络算法是通过训练人脸特征库的方式进行学习生成,对不同环境下不同表现情况的人脸图像识别有更高的精确性。

2.3人脸识别软件实现方式

(1)采集人脸数据集,然后对数据集进行标注,对数据进行预处理变成训练格式。(2)部署训练模型,根据训练算法所需依赖部署电脑环境。(3)训练过程,下载预训练模型,将人脸数据集分批次作为输入开始训练,最终输出为训练好的模型。(4)部署训练好的模型,捕获画面即可对画面中的人脸进行实时检测。

3人脸识别在病毒传播防控中的应用

通过人脸识别技术,可以实现无接触、高效率的对流动人员进行信息的收集、身份识别、定位地址信息等操作,大大减少了传染的可能性,切断了病毒传播途径,大大提高了工作效率。通过提前收录人脸信息,采用深度学习对人脸特征模型的训练学习,即可获取人脸识别特征模型,再次验证时即可实现人脸识别和个人信息快速匹配。AI人工智能帮助人们更好的解放双手,为人们的生活和工作提供了重要的帮助。本文还提出了在人脸识别的系统基础上,可以加入定位系统、测温系统等,依托物联网技术和云计算大数据,更加优化管控系统的效率。病毒传播防控中人脸识别系统流程可以概括为图2。

4结语

本文研究了一种人脸识别技术在病毒传播管控系统中的应用,并分析设计了人脸识别实时监测及病毒管控系统的流程,大大提高了信息管理的效率,减弱了传播风险。作为一门新兴技术,目前的人脸识别技术还存在着诸多不足之处,像存在环境光的影响、人脸表情变化、妆容变化、佩戴口罩等都会影响到系统识别精度;另外安全问题也引人深思:现今人脸支付方式迅猛发展,录入的人脸模型信息数据库存在有一定的安全风险,一旦被不法分子盗取信息后果不堪设想,所以模型数据库安全、网络安全,也是系统开发中必须重视的问题。人脸识别为代表的人工智能技术的研究,在病毒传播管控作出重大贡献,依托我国领先的计算机网络技术和5G等技术,加强人工智能技术与5G通信技术的结合,优势互补,以此来加快大数据、人工智能和物联网技术发展进程,对我国社会进步,促进城市建设和管理朝着高效、秩序、和谐稳定的方向不断发展,增强我国的经济实力有着重大价值和研究意义。

参考文献

[1]王彦秋,冯英伟.基于大数据的人脸识别方法[J].现代电子技术,2021,44(7):87-90.

[2]李刚,高政.人脸自动识别方法综述[J].计算机应用研究,2003,20(8):4-9,40.

[3]马玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].计算机科学与探索,2021,7(15):1195-1206.

[4]余璀璨,李慧斌.基于深度学习的人脸识别方法综述[J].工程数学学报,2021,38.

[5]王红星,胡永阳,邓超.基于LBP和ELM的人脸识别算法研究与实现[J].河南理工大学学报(自然科学版),2005.

[6]钟陈,王思翔,王文峰.面向疫情防控的人脸识别系统与标准研究[J].信息技术与标准化,2020,6,11-13,1671-539X.

[6]彭骏,吉纲,张艳红,占涛.精准人脸识别及测温技术在疫情防控中的应用[J].软件导刊,2020,10,1672-7800.

篇3

 

AI从诞生到现在已经有60年的时间,期间经历两轮起落,呈阶梯式进化,走到今天进入第三个黄金期。如果按照其智能科技水平划分,今天的人工智能尚处在狭义智能向广义智能进阶的阶段,还是一名不折不扣的“少年”,未来拥有无限的可能和巨大的上升空间。

 

AI是一门交叉的学科:人工智能由不同的技术领域组成,如机器学习、语言识别、图像识别、自然语言处理等。而同时,它也是一门交叉学科,属于自然科学和社会科学的交叉,涉及到哲学和认知科学、数学、神经生理学、心理学、计算机科学、信息论、控制论、不定性论等学科。人工智能领域的技术壁垒是比较高的,并且会涉及到多学科协作的问题,对任何公司来说,想做好人工智能将是一门大工程。未来不大可能出现一个公司能包揽整个人工智能产业每一个部分的工作,更可能的模式将是一个公司专注于一个相对细分的领域,通过模块化协作的形式实现人工智能领域的不同应用。

 

进化史呈阶梯状,以阶段突破式为成长模式:人工智能的发展经历了两次黄金和低谷期,

 

现在正经历着第三个黄金期。1956年,麦卡赛、明斯基、罗切斯特和申农等年轻科学家在达特茅斯一起聚会,并首次提出了“人工智能”这一术语,标志着人工智能的诞生。第二年,由 Rosenblatt 提出 Perceptron 感知机,标志着第一款神经网络诞生。1970年,因为计算能力没能突破完成大规模数据训练,人工智能的第一个黄金期到此结束。

 

后直到1982年德普霍尔德神经网络的提出,人工智能进入第二个黄金期,之后BP算法的出现使大规模神经网络训练成为可能,人工智能的发展又一次进入。1990年,因为人工智能计算机和DARPA没能实现,政府撤资,人工智能又一次进入低估。2006年,随着“深度学习”神经网络取得突破性进展,人工智能又一次进入黄金时期。

 

AI将由狭义智能向广义智能进化,虽然人工智能的诞生已经有60年的时间但如果把它比喻成一个人的话,当前的他应该还未成年。按照人工智能的“智能”程度,可以将其分成狭义智能、广义智能、超级智能三个大的发展阶段,现阶段的图像与语音识别水平标志着人类已经基本实现狭义智能,正在向广义智能的阶段迈进。

 

狭义智能:即当前的技术已经实现的智能水平,包括计算智能与感知智能两个子阶段,计算智能指的机器开始具备计算与传递信息的功能,感知智能指机器开始具备“眼睛”和“耳朵”,即具备图像识别与语音识别的能力,并能以此为判断采取一些行动。

 

广义智能:指的是机器开始具备认知能力,能像人类一样获取信息后主动思考并主动采取行动。在这个阶段,机器可以全面辅助或代替人类工作。

 

超级智能:这个阶段的机器几乎在所有领域都比人类聪明,包括科学创新、通识和社交技能等。这个阶段目前离我们还比较遥远,到时候人类的文明进步和跨越或许将有赖于机器,而机器人意识的伦理问题也许将在这个阶段成为主要问题。

 

推荐引擎及协同过滤可以分析更多的数据

 

智能助手并不只局限于Siri等手机语音助手。微软率先在win10 系统中加入个人智能助理Cortana,标志着个人PC端智能助理的出现;图灵机器人以云服务的方式进入海尔智能家居、博世mySPIN车载系统,预示着多场景人工智能解决方案的潮流。初步实现人机交互的智能助手系统,已经被应用于智能客服、聊天机器人、家用机器人、微信管理平台、车载系统、智能家居系统、智能手机助理等多个软硬件领域。

 

垂直类网站及社交平台可以借助智能助手系统打造高专业度的“在线专家”以提升平台价值;企业可以借助以“语义识别”为基础的智能助手系统,打造智能客服,效率远高于传统的以“关键词对应”为技术支持的客服系统。

 

推荐引擎,是主动发现用户当前或潜在需求,并主动推送信息给用户的信息网络。挖掘用户的喜好和需求,主动向用户推荐其感兴趣或者需要的对象。传统推荐引擎通常利用用户在平台上的历史记录进行推荐,效率低、匹配度不高。目前随着大数据和深度学习技术的推进,推荐引擎及协同过滤可以分析更多的数据,乃至全网数据,并模拟用户的需求,真正达到按需推荐。全球最大的正版流媒体音乐服务平台Spotify也利用卷积神经网络参与建设其音乐推荐引擎;谷歌也提出利用深度学习方法来学习标签进行推荐建设。出品纸牌屋的全球最大在线影片租赁公司Netflix 也利用深度学习网络分析客户消费的大数据,还计划构建一个在AWS云上的以GPU为基础的神经网络。

 

“餐厅推荐引擎”Nara,便是一个利用AI技术的推荐引擎。在上线之初,Nara 就取得了400万美元的投资。Nara 的数据库中有超过100000家餐厅的信息,并利用特有的“Nara神经网络”,学习使用者的偏好,最终达到“电脑帮你点餐”的目的。

 

而今年3月22日,国内AI领军企业阿里巴巴旗下的阿里云数加启动“个性化推荐”引擎对外公测,该引擎用于帮助创业者可以快速获得媲美淘宝天猫的个性化服务能力。阿里云数加上的推荐引擎能够以更低的成本完成开发,节省程序量达到90%,推荐引擎的搭建时间将由几个月缩短到几天。

 

对于不了解算法的人,只能实现标签规则类的推荐,但如果要做成机械化、类似协同过滤的算法,创业公司需要配置大量的算法工程师,人力成本很高。现在用了数加的推荐引擎,商家只需要做数据的ETL加工,推荐的结果集、训练集都不用处理,只需要调整参加即可得到推荐结果。

 

AI带给人们新的视觉???

 

医疗:为健康诊断和药品研发插上高飞的翅膀

 

健康诊断有望迎来新纪元,海量的病历数据和医学界的新研究成果,单靠人工很难及时筛选并利用,而引入人工智能技术将充分发挥这些信息的价值。例如著名的个人健康管理产品公司Welltok将 IBM的Watson功能融入旗下产品 CafeWell Concierge APP中,借助 Watson 的认知计算能力理解人类语言,实现与用户沟通的能力,从大量数据中进行分析并为用户提供健康管理相关的答案和建议,实现健康管理、慢病恢复训练、健康食谱等功能,这一领域的良好前景使 Wellltok公司近年的融资额连创新高。另外,2015年IBM斥资10亿美元收购医疗影像与临床系统提供商Merge,将研究如何实现 Watson的“辨读”医学影像功能。此外,AI 还可以从医疗中心获得的健康数据,通过大数据分析,实现根据分析患者行为来制定个性化治疗方案的功能。

 

智能家居:天花板尚远,AI有望成为核心

 

行业天花板尚远,增速有望保持在 50%左右, 《钢铁侠》中的“Jarvis”作为智能管家,除了起到钢铁侠的小秘书的作用,还帮主人打理着日常生活,向我们展示了一个理想中的智能家居系统。虽然我们目前可能离那个无所不能的智能管家还很遥远,但智能家居对我们生活的变革确实已经开始了。根据《2012-2020 年中国智能家居市场发展趋势及投资机会分析报告》的预测,我国智能家居市场在 2016年将达到605.7亿的规模,同比增长50.15%,到2020年市场规模将达到3294亿,年均增速将保持在50%左右,具备充足的向上延伸空间。而智能家居想达到“Jarvis”般的终极效果,必然需要引入AI技术,实现家居的感应式控制甚至自我学习能力。

 

AI有望成为智能家居的核心,实现家居自我学习与控制。按照智能家居的发展进度,大致可以分为四个阶段:手机控制、多控制结合、感应式控制、系统自我学习。当前的发展水平还处在手机控制向多控制结合的过度阶段。而从多控制结合向感应式控制甚至自我学习阶段进化时,AI将发挥主要功能。到今天为止,家居的实体功能已经较为全面,未来的发展重点可能在于如何使之升级改造,实现家居的自我行为及协作,因此未来AI在智能家居领域的应用有望成为其核心价值。AI对智能家居的重构可以深入到方方面面,包括:控制主机、照明系统、影音系统、环境监控、防盗监控、门窗控制、能源管理、空调系统、花草浇灌、宠物看管等等。

 

无人驾驶:政策渐萌芽,AI决定可靠性

 

优点多、动机足、政策渐萌芽。据麦肯锡的调查显示,如果能解放驾驶员的双手,一辆无人驾驶汽车内的乘客通过移动互联网使用数字媒体服务的时间多一分钟,每年全球数字媒体业务产生的利润将增加 50亿欧元。此外,由于自动泊车无须为乘客下车预留开门空间,使得停车位空间可缩减至少15%。

 

如果无人驾驶汽车以及ADAS系统能够将事故发生率降低90%,即可挽回全美每年的损失约1千900亿美金。可以说诸多的优点使得无人驾驶技术的研发动机还是相当充分的,因此未来无人驾驶推行的力度应该还会保持在一个比较高的水平。美国勒克斯研究公司曾预计无人驾驶汽车的市场规模在2030年将达到870亿美元。

 

到目前为止,各国政府对于无人驾驶技术在政策上的支持正逐步放开,美国政府在年初刚刚宣布了40亿美元的资助计划;英国目前已经不需要获得额外批准和履约保证即可进行实际道路的无人驾驶汽车测试;而德国也在去年宣布将计划设立无人驾驶汽车测试路段,供安装有驾驶辅助系统或全自动驾驶系统车辆行驶;欧盟总部正在就如何修改现行有关驾驶的法律法规从而支持自动驾驶的发展展开讨论和研究工作;日本也提出要在2020年之前实现自动驾驶汽车方面的立法,并将自动驾驶作为 2016年9月七国集团交通部长会议的议题。

 

“无人汽车大脑”AI的智能程度决定了无人驾驶的可靠性。由于无人驾驶完全交由汽车的内置程序负责,因此AI就是无人汽车的大脑,而测距仪、雷达、传感器、GPS等。设备都是AI的“眼睛”。AI的智能程度直接决定了无人驾驶汽车在不同的路况、不同的天气、甚至一些探测设备出现故障的突况下能否及时做出正确的判断并灵活调整行驶策略,最终决定了无人驾驶汽车当前最亟待突破的可靠性。

 

NVIDIA 在2016年的 CES大会上了“Drive PX 2”车载计算机,以及一套与之搭配的具有学习功能的自动驾驶系统。该系统的亮点在于“自我学习”,通过让车辆自行分析路面状况,而不是在数据库中寻找预先储存的策略实现自动驾驶,系统背后连接着名为NVIDIA DIGITS的深度学习训练平台,最终连接到NVIDIA DRIVENET神经网络,为车辆的自我学习和完善提供支持。并且由于它是通过判断物体的行进轨迹而不是物体本身去计算路径,因此在驾驶时受天气影响较小。

 

AI 成必争之地

 

目前全球AI主战场依旧在欧美。Venture Scanner的统计显示,根据从事 AI相关业务的公司数量来看,目前全球 AI的主战场还是集中在北美和西欧地区。美国数量最多,达到450家左右的水平。而中国从事相关业务的公司数量还比较少,和俄罗斯、澳洲、部分欧洲国家及非洲南部国家水平接近,相比起欧美国家的AI公司数量,还有很大的提高空间。

 

Google:投资未来的人工智能帝国

 

建立Alphabet帝国,具备品牌背书效应。2015年,谷歌成立母公司 Alphabet, 搜索、广告、地图、App、Youtube、安卓以及与之相关的技术基础部门”仍属于谷歌,而Calico、Nest、Google Fiber、Google Venture、Google Capital 及 Google X 都将独立出来,成为 Alphabet 旗下的独立公司。通过建立 Alphabet集团,谷歌将不同业务的研发独立出来,以子公司的形式进行业务开展,保留在Google这个品牌下的基本都是原有的传统强势业务。

 

而其它公司负责在各自的领域“打头阵”,一旦业务研发成功,母公司连带着google这个品牌都可以受益,而如果研发失败,也不会公司的品牌造成多大的不良影响,建立了良好的品牌背书效应。将机器学习技术应用到所有产品之中,我们不难发现,谷歌近年几乎将人工智能渗透到了旗下的各类产品中,可谓是全线铺开。正应了谷歌 CEO的那句话:“我们将小心谨慎地将机器学习技术应用到我们所有的产品之中。”根据当前Alphabet 的集团架构,我们将涉及到AI应用的子公司情况以及相应的业务开展情况罗列如下:

 

Nest:从事智能家居生态系统建设。2014 年谷歌以32亿美元收购 Nest。Nest 生产智能恒温器,它能够学习用户的行为习惯,并且根据他们的喜好去调节温度。同时,Nest 也提供火警探测器和家庭安全摄像头等智能家居。

 

Google X:谷歌各类创新技术的“孵化池”。Google X开展的与AI有关的项目有:无人驾驶汽车、Project Wing 无人机送货项目、对抗帕金森氏症的 Liftware“反抖”汤匙、用于疾病预警和健康监控的可穿戴设备、Project Titan 太阳能无人机项目、以及 Replicant 团队负责的机器人项目等。

 

Verily:从事生命科学业务,即原来的 Google Life Science。代表产品有可以收集佩戴者体温和血液酒精含量等生物数据的智能隐形眼镜,以及监控血液中纳米粒子的智能腕表。

 

DeepMind:深度学习算法公司。2014年谷歌以4亿美元收购了DeepMind。

 

DeepMind的算法源于两种机器学习方法的结合:第一种是深度学习,是受人脑启发的一种结构。深度学习系统能够从大量的非结构数据中获取复杂信息。第二种是增强学习,灵感源自动物大脑中的神经递质多巴胺奖励系统,算法不断通过试错来进行学习。目前,DeepMind在深度学习上面的研究成果已经开始用在谷歌的机器人项目中。

篇4

关键词:内部威胁;检测模型;信息泄露;网络安全;

作者:吴良秋

0、引言

随着大数据、云计算蓬勃发展,计算机相关产品在我们生活中扮演着重要角色,我们在享受的同时,信息安全成了不可忽视的安全隐患,数据的非法获取成了互联网环境下的巨大威胁,特别是内部威胁,具有一定的透明性,发生在安全边界之内,相对于外部攻击更隐蔽,对整个网络安全环境提出了严峻挑战。

美国防部海量数据库[1]监测、分析和识别单位雇员的行为是否给国防部带来危险;2013年斯诺登事件中内部人员通过私人渠道公开内部数据引起媒体广泛关注;2017年3月,Dun&Bradstreet(邓白氏)的52GB数据库遭到泄露,这个数据库中包括了美国一些大型企业和政府组织(包括AT&T,沃尔玛、WellsFargo,美国邮政甚至美国国防部)的3300多万员工的信息和联系方式等;2014年1月,韩国信用局内部员工窃取了2000万银行和信用卡用户的个人数据,造成韩国历史上最严重的数据泄露事件,但这只是内部威胁安全的冰山一角。SailPoint的调查显示,被调查者中20%的人表示只要价钱合适会出卖自己的工作账号和密码。即时内部威胁检测系统(ITDS)是一项昂贵而复杂的工程,但是情报界,国防部,公司都在研究相关检测模型。

截止2016年4月公安部部署打击整治网络侵犯公民个人信息犯罪专项行动以来,全国公安机关网络安全保卫部门已经查破刑事案件1200余起,抓获犯罪嫌疑人3300余人,其中银行、教育、电信、快递、证券、电商网站等行业内部人员270余人[2]。

国内外内部威胁事件不断发生,内部威胁应对形式严峻,需要社会各界的高度重视,首要工作是分析内部威胁的特征,从而研究可能的应对方案。

1、内部威胁的产生

1.1、相关术语

内部威胁,一般存在于某一个企业或组织的内部,内部的人员与外界共同完成对团队信息的盗窃和交易。

定义1内部威胁攻击者一般是指企业或组织的员工(在职或离职)、承包商以及商业伙伴等,其应当具有组织的系统、网络以及数据的访问权。

内部人外延是指与企业或组织具有某种社会关系的个体,如在职员工,离职员工,值得注意的是承包商与商业伙伴扩展了内部人的范围,即“合伙人”也是潜在的内部攻击者;内涵则是具有系统访问权。

定义2内部威胁是指内部威胁攻击者利用合法获得的访问权对组织信息系统中信息的机密性、完整性以及可用性造成负面影响的行为。

内部威胁的结果是对数据安全造成了破坏,如机密性(如数据窃取)、完整性(如数据篡改)以及可用性(如系统攻击)等。

企业或者组织信息化程度已经深入日常管理,尽管企业或组织努力保护自身数据,但身份盗窃、数据库泄露和被盗密码问题仍然是企业组织面临的主要挑战。如今,组织面临的最大挑战之一是内部人士的系统滥用,他们的行为深深植根于不遵守监管标准。已经确定,信息安全防御中最薄弱的环节是人,这意味着最严重的威胁来自内部人员。

因此,内部威胁产生,主要有两方面原因:(1)主体原因,即攻击者有攻击的能力,行为完成一次攻击;(2)客体原因,一次攻击能成功都是因为被攻击对象存在漏洞或者缺乏监管。

1.2、内部威胁的分类

内部威胁[3]有三种主要的分类:偶然的、恶意的和非恶意的。

偶然的威胁通常是由错误引起的。例如,由于粗心大意、对政策的漠视、缺乏培训和对正确的事情的认识,员工可能不会遵循操作流程。恶意的威胁是指故意破坏组织或使攻击者受益。例如,信息技术(IT)管理员因心怀不满而破坏IT系统,使组织陷入停顿。在许多事件中,当前和以前的管理员都是因各种动机故意造成系统问题。非恶意的威胁是人们故意采取的行动,而不打算破坏组织。在非恶意威胁中,其动机是提高生产力,而错误的发生是由于缺乏培训或对政策、程序和风险的认识。

1.3、内部威胁特征

⑴高危性内部威胁危害较外部威胁更大,因为攻击者具有组织知识,可以接触核心资产(如知识产权等),从而对组织经济资产、业务运行及组织信誉进行破坏以造成巨大损失。如2014年的美国CERT的网络安全调查显示仅占28%的内部攻击却造成了46%的损失。

⑵隐蔽性由于攻击者来自安全边界内部,所以内部威胁具有极强的伪装性,可以逃避现有安全机制的检测。

⑶透明性攻击者来自安全边界内部,因此攻击者可以躲避防火墙等外部安全设备的检测,导致多数内部攻击对于外部安全设备具有透明性.

⑷复杂性(1)内外勾结:越来越多的内部威胁动机与外部对手关联,并且得到外部的资金等帮助;(3)合伙人:商业合作伙伴引发的内部威胁事件日益增多,监控对象群体扩大;(3)企业兼并:当企业发生兼并、重组时最容易发生内部威胁,而此时内部检测难度较大;(4)文化差异:不同行为人的文化背景会影响其同类威胁时的行为特征。

2、内部威胁模型

学界曾经对内部威胁提出过诸多的行为模型,希望可以从中提取出行为模式,这部分主要的工作开始于早期提出的SKRAM模型与CMO模型,两个模型都从内部攻击者的角度入手,分析攻击者成功实施一次攻击所需要具备的要素,其中的主观要素包括动机、职业角色具备的资源访问权限以及技能素养,客观要素则包括目标的内部缺陷的访问控制策略以及缺乏有效的安全监管等。

根据内部威胁产生的原因,内部威胁的模型也可分为两类:基于主体和基于客体。其中基于主体模型主要代表有CMO模型和SKRAM模型,这也是最早的内部威胁模型。

2.1、基于主体的模型

CMO模型[4]是最早用于内部攻击的通用模型,这都是单纯从攻击者的主观方面建立的模型,没有考虑到客观因素,如由于资源所有者内部缺陷的访问控制策略及其缺乏切实有效的安全监管。攻击者成功实施一次攻击主观方面所需要具备的要素即:(1)能力(Capability),进行内部攻击的能力,包括文化层次,技术水平等能力;(2)动机(Motive),内部攻击的动机,有因为工作不满,换取利益等;(2)机会(Opportunity),不是每个人都有机会攻击,有攻击的能力,也有动机,但是还得有合适的机会把动机转化人实际行动。

SKRAM模型[5]是Parker等人在早期的CMO模型基础上进行的改进,即需要具备的要素有:(1)技能(Skills),也即是内部攻击者的能力;(2)知识(Knowledge),包括内部攻击者的知识水平,文化素养;(3)资源(Resources),职业角色具备的资源访问权限;(4)Authority;(5)动机(Motives)。

Jason等人[6]提出内部人员成为了具有攻击动机的内部攻击者,主观要素是用户的自身属性,主要影响、反映内部人的当前心理状态,这些要素主要包括三类:一类是包括内部人的人格特征等内在心理特征,另一类包括精神病史或违法犯罪史等档案信息以及现实中可以表征心理状态变化的诸多行为,最后一类则是内部人在组织中的职位、能力等组织属性。

2.2、基于客体的模型

CRBM模型[7](Role-BasedAccessControl)是基于角色访问控制。通过扩展基于角色的访问控制模型来克服内部威胁的局限性,引入了CRBM(复合基于角色的监视)方法。CRBM继承了RBAC的优点,将角色结构映射为三个:组织角色(OrganizationRole,OR)、应用程序角色(ApplicationRole,AR)和操作系统角色(OperatingSystemRole,OSR)。

李殿伟等人[8]将访问控制与数据挖掘相结合,设计了一种基于角色行为模式挖掘的内部威胁检测模型,提出了一种基于用户角色行为准则、行为习惯与实际操作行为匹配的内部威胁预警方法。文雨等人[9]提出一种新的用户跨域行为模式分析方法。该方法能够分析用户行为的多元模式,不需要依赖相关领域知识和用户背景属性,针对用户行为模式分析方法设计了一种面向内部攻击的检测方法,并在真实场景中的5种用户审计日志,实验结果验证了其分析方法在多检测域场景中分析用户行为多元模式的有效性,同时检测方法优于两种已有方法:单域检测方法和基于单一行为模式的检测方法。

2.3、基于人工智能的模型

传统的内部威胁检测模型主要是基于异常检测、基于角色等相关技术,随着人工智能的兴起,利用机器学习等相关算法来建立内部威胁模型占据主要地位。这种模型,建立网络用户的正常行为轮廓,并利用不同的机器学习算法进行训练,实现了检测准确率高的优点,但是效率较低。

Szymanski[10]等人使用递归数据挖掘来描述用户签名和监视会话中的结构和高级符号,使用一个类SVM来测量这两种特征的相似性。郭晓明[11]等提出一种基于朴素贝叶斯理论的内部威胁检测模型。通过分析多用户对系统的命令操作行为特征,对多用户命令样本进行训练,构建朴素贝叶斯分类器。Yaseen等人[12]研究了关系数据库系统中的内部威胁。介绍知识图谱(KG),展示内部人员知识库和内部人员对数据项的信息量;引入约束和依赖图(CDG),显示内部人员获取未经授权知识的路径;使用威胁预测图(TPG),显示内部人员每个数据项的威胁预测价值(TPV),当内部威胁发生时,TPV被用来提高警报级别。梁礼[13]等人提出基于实时告警的层次化网络安全风险评估方法,包含服务、主机和网络三级的网络分层风险评估模型,通过加权的方式计算网络各层的安全风险值。分别以实验室网络环境及校园网环境为实例验证了方法的准确性和有效性。

2.4、基于交叉学科的模型

随着内部威胁的不断发展,内部威胁的研究领域不断扩展,基于心理学、社会学等方面也出现新的研究思路。

TesleemFagade等人[14]提出了信息安全如何嵌入到组织安全文化中。组织文化被描述为在人、过程和政策之间保持联系的共同价值观、行为、态度和实践。建议将安全管理与治理结合到组织行为和行动文化中,这是最有效的。习惯性行为传播,通常需要共同努力打破常规。如果组织想要养成安全行为的习惯,那么也许一个与组织安全文化的方向一致的长期目标是一种更好的方法,而不是专注于快速认证状态,然后假设所有的技术和人工过程都是安全的。组织安全文化被定义为被接受和鼓励的假设、态度和感知,目的是保护信息资产,从而使信息安全的属性和习惯得以实现。

匡蕾[15]采用了基于蜜罐技术的检测模型;B.A.Alahmadi[16]等人对用户的网络行为建立关联,从而检测出潜在的内部威胁。首先从用户浏览的网页中提取出文本信息,建立向量;其次建立词向量与语言获得和词汇计数,然后通过建立的Word-LIWC关系矩阵与已有的LIWC-OCEAN关系矩阵结合得到词向量的关系矩阵。OCEAN代表大五人格:开放性(Openness)、尽责性(Conscientiousness)、外倾性(Extraversion)、宜人性(Agreeableness)、情绪稳定性(Neuroticism);计算用户浏览的新网页中的词向量OCEAN值与日常值的欧氏距离,根据距离的大小判定行为的异常。

3、内部威胁常用数据集

目前有很多公开的数据集,如:KDD99数据集,SEA数据集、WUIL数据集和CERT-IT数据集,表1对主要数据集进行了对比。

⑴KDD99数据集:KDD99[17](DataMiningandKnowledgeDiscovery),记录4,898,431条数据,每条数据记录包含41个特征,22种攻击,主要分为以下四类攻击:拒绝服务攻击(denialofservice,DoS)、远程到本地的攻击(remotetolocal,R2L)用户到远程的攻击(usertoremote,U2R)和探测攻击(probing)。

Putchala[18]将GRU应用于物联网领域的入侵检测,在KDD99数据集上进行实验,得到的准确率高于99%。基于卷积神经网络的入侵检测算法在KDD99的实验下,比经典BP神经网络和SVM算法有提高。

⑵SEA数据集:SEA数据集涵盖70多个UNIX系统用户的行为日志,这些数据来自于UNIX系统acct机制记录的用户使用的命令。SEA数据集中每个用户都采集了15000条命令,从用户集合中随机抽取50个用户作为正常用户,剩余用户的命令块中随机插入模拟命令作为内部伪装者攻击数据。

⑶WUIL数据集:WUIL数据集通过借助Windows的审计工具,他们实验记录20个用户的打开文件/目录的行为,每条记录包含事件ID、事件时间以及事件对象及其路径信息(如文件名与文件路径)。

⑷CERT-IT数据集:CERT-IT(InsiderThreat)数据集[19]来源于卡耐基梅隆大学(CarnegieMellonUniversity)的内部威胁中心,该中心由美国国防部高级研究计划局(DARPA)赞助,与ExactData公司合作从真实企业环境中采集数据构造了一个内部威胁测试集。该中心迄今为止最富有成效的内部威胁研究中心,其不仅建立了2001年至今的700多例内部威胁数据库,还基于丰富的案例分析不同内部威胁的特征,提出了系统破坏、知识产权窃取与电子欺诈三类基本的攻击类型,由此组合形成复合攻击以及商业间谍攻击;此外CERT还建立了内部威胁评估与管理系统MERIT用于培训安全人员识别、处理内部威胁。CERT完整数据集有80G,全部以csv格式记录用户行为,包括文件访问权限、文件各种属性以及用户对文件的增删改查、Email收发、移动存储设备、打印机等硬件设备使用记录、HTTP访问及系统登录、工作岗位及工作部门等信息。CERT数据集提供了用户全面的行为观测数据以刻画用户行为模型。

⑸MasqueradingUserData数据集:MasqueradingUserData[20],模拟真是用户入侵系统。整个数据集由50个文件组成,每个文件对应一个用户。该文件包含100行和50列,每一列对应于50个用户中的一个。每一行对应一组100个命令,从命令5001开始,以命令15000结束。文件中的条目是0或1。0代表相应的100个命令没有受到感染。状态1代表它们被感染了。

⑹其他数据集:Mldata[21]数据集包含了869个公开的数据集,主要是基于机器学习的数据,包含视频流和键值集群和服务度量的Linux内核统计数据、HDF5等。

表1常用数据集比较

表1常用数据集比较

4、展望

随着网络系统不断庞大,互联网技术不断更新,防范网络攻击需要综合网络测量、网络行为分析、网络流量异常检测及相关检测模型在处理数据时的最新研究成果,并且还需要有能力分析国内外各种最新网络态势。内部威胁的传统检测方法在模型的特征抽取和模版匹配有一定的局限性,随着人工智能、云计算、大数据等新技术的成熟,这些前沿技术在特征抽取和模式匹配时,检测效率和准确率有较大提升,目前内部威胁热门研究方向包括:

4.1、人工智能方向

人工智能已经日趋成熟,各行各业都在融合人工智能、机器学习等相关算法技术,在内部威胁检测领域也是一个热点。

利用当前互联网领域前沿的数据分析技术、克隆技术、神经网络算法、人工智能算法等,在数据采集、身份认证、日志管理、漏洞检测、操作审计环节上改进,从而大力提高检测的质量和效率。

4.2、云平台方向

篇5

关键词:消费意图识别;查询商业意图识别;消费意图模板;社会媒体

中图分类号:TP391.41 文献标识号:A 文章编号:2095-2163(2015)04-

Consumption Intent Recognition for Social Media: Task, Challenge and Opportunity

FU Bo, LIU Ting

(Research Center for Social Computing and Information Retrieval, Harbin Institute of Technology, Harbin 150001,China)

Abstract: Social media is the platform where people freely share with each other information such as comments, experiences, and an opinion. Among the large amount of posts, some may reveal the users' underlying commercial intention (CI). The consumption intent is a desire or hope for something to purchase. For instance, a post like “Please recommend for me a Nokia mobile phone about 2,000 RMB” may indicate an immediate or future purchase. Such information is valuable for better advertisement services. The paper introduces the problems this task try to resolve, the main challenges of this task, representative emerging work related to this task. After that, the paper proposes several directions that are worth exploring in future.

Keywords: Consumption Intent; Query Commercial Intent; Consumption Intent Pattern; Social Media

0 研究背景

近年来,网络数据资源呈现几何式、爆炸式增长,巨量的网络数据中蕴含着大量的用户的,对诸如产品购买等有价值的行为信息及个性化需求信息,这些关于产品类的信息需求表达了人们的各种消费意愿和消费需求。例如,Google、Baidu等搜索引擎查询日志记录了人们从互联网搜索所需产品的信息;Twitter、新浪微博等社会化媒体平台的时尚性、广泛性和互动性能帮助人们即时所需产品的信息;京东商城、淘宝网等电商网站记录了用户浏览和购买行为。只有充分了解利用用户的信息和需求,才能做到有的放矢。互联网各种不同的媒体上存储了大量用户资料、用户之间的社交关系以及用户的行为数据,如表1所示。

可以看出,各种不同媒体中所积累的海量用户信息为构建新的社会化应用,以及理解人们当前和潜在的消费需求带来了前所未有的新机遇。在如此庞大用户基数的支撑下,互联网的巨大潜力正日益体现,与现实社会的互动渗透更加紧密深入。互联网上出现的不同媒体在商业、生活、政治等各方面,也正发挥着源自其强大信息传播的重要作用。截至2014年12月底,我国网络购物用户规模达到3.61亿,较2013年底增加5 953万人,增长率为19.7%;我国网民使用网络购物的比例从48.9%提升至55.7%。根据艾瑞咨询预测,2017年的网络购物交易规模将达到56 340亿元,占社会消费品零售总额的比例为15.7%,较2010年提升12.8个百分点。特别是在商业营销上,约有51%的消费者在成为企业品牌的粉丝后,购买该品牌商品的意愿也会相应提高5个百分点。可以说,互联网上用户对产品的需求与日俱增,并且形式多种多样。在经济全球化和信息网络化的今天,主动掌握个体兴趣偏好和群体消费趋势等用户消费需求信息,就可以在市场营销、产品计划等实现智能精准决策,在此背景下,消费意图(Consumption Intent)识别的相关技术应运而生。

表1 互联网不同媒体数据和对应的国内外流行站点

Tab.1 Examples of different media and the corresponding domestic and foreign websites

1 任务

消费意图,是指用户表达出的对购买产品服务等一些商业消费需求的意愿[1]。消费意图识别技术是对带有消费需求色彩的互联网用户生成的文本或用户本身行为数据进行的分析和整理,通过网络的方式挖掘出用户当前或潜在的消费需求。

面向社会媒体的消费意图识别的任务可以分为基于内容的消费意图识别和基于用户的消费意图识别。其中,基于内容的消费意图研究包括消费模板的抽取、消费意图识别以及消费意图中的消费对象抽取等。具体地,基于内容的消费意图是指导用户通过互联网与购买需求相关的信息,如:“我想买一部手机,谁能给推荐一下吗”,即是一个显式消费意图内容,这里的“手机”即为消费对象;而基于用户的消费意图则是指一条信息没有明确的表达购买产品或服务的意图,但通过推理可发现用户潜在的商业需求,间接地表明用户将来会购买与母婴用品相关的产品或服务。然而到目前为止,关于消费意图并没一个标准的定义及分类体系。通过大量的调研,即可发现基于内容的消费意图文本中有意义的信息主要有触发词语(如“想买”)、消费对象等,而基于用户的消费意图也会包含有一些用户历史行为。下面本文将逐一介绍目前显式消费意图识别研究中的主要任务和主要实现技术。

最初的消费意图识别任务源自前人对带有消费意图的词语或模板的分析,如“想买”即是带有消费意图的模板。随着互联网上大量的带有消费意图的文本出现,研究者们逐渐从简单的消费意愿的模板的分析研究过渡到更为复杂的用户当前需求以及潜在需求的研究。基于此,按照处理角度的不同,可分为基于文本内容的消费意图识别和基于用户的消费意图识别。其中,前者处理的文本内容包括互联网上用户在搜索引擎输入的单个查询、单条微博文本等用户的内容,如微博消费意图文本“想给儿子买个电动挖掘机”,表明了用户的消费意愿是想为受众目标“儿子”购买一台“电动挖掘机”的消费对象;后者处理的对象主要是以用户为中心,如一个用户一直对母婴用品有消费意图。按时消费意图的时效不同,可分为现实需求和潜在需求。现实需求是指已经存在用户当前的需求。潜在需求是指消费者虽然有明确意识的欲望,但由于种种原因还没有明确的显示出来的需求。

2 挑战

互联网用户的消费意图识别存在着各种各样的挑战。具体地,可将其划分为三种。现给出如下论述:

2.1 网络数据采集的挑战

互联网数据形式多样化,不同媒体平台的用户和内容具有异构性,因而针对网络数据的采集需要就不同类型的内容分别进行处理,提取有价值的内容信息和用户行为信息。例如,在线社区中的用户信息大部分以超文本标记语言(HTML)的网页方式展现,挖掘基于社区中的用户消费意图文本,需要针对HTML这种非结构化的数据精准地抽取出用户名、用户发贴内容等元数据信息。而社交媒体网站的数据挖掘则需要通过采集记录内部系统日志来实现,如Facebook的Scribe。因而,在进行消费意图研究的相关工作中,都首先需要挖掘出不同媒体中的含有消费意图的内容或具体行为。

2.2 数据稀疏的挑战

互联网上存在着大量的垃圾信息。例如社会媒体用户中有33%左右的用户微博的是自己的状态信息,诸如“好无聊怎么办”,而仅有8.7%的微博内容传达了有价值的信息。由于微博上用户可以借助个人习惯的方式表达自己的感受,因而在这些有价值的信息中,微博内容信息通常是随意、零散和有噪声的。

2.3 跨社区的挑战

互联网上社会媒体、论坛、电商网站等迅速发展,积累了大量的用户信息,为社会计算的相关研究提供了前所未有的海量数据。例如,Ding等人[2]基于微博用户的消费意图研究电影票房预测问题。也有学者分别研究了用户评价[3]和在线论坛中的用户[4]消费意图识别问题。但是这些相关工作都只关注面向单个社区或社交媒体的消费意图识别问题,这是因为不同媒体的用户之间往往没有显式的链接,就使得一个媒体中的用户与其他媒体的用户之间是无法进行关联的。此外,虽然每个用户在不同媒体平台上拥有不同的用户信息,但是这些用户信息在不同的平台之间是非共享的。可以观察到,由于不同媒体平台在主题以及功能上的不同,用户的信息碎片化地分布在不同类型的媒体平台中。

3 相关工作

3.1 消费意图模板的抽取

模板(pattern)是自然语言领域中的常见概念,是指从自然语言实例(如短语、句子等)中泛化而来的抽象表达。正因为模板较之实例有着更好的概括和泛化能力,因此被广泛使用于信息抽取、机器翻译、自然语言生成等研究中。一个模板通常包含两部分,即模板词(patternwords)和模板槽(pattern slots),其中前者可看作模板的常量部分,后者则是模板的变量部分。例如,对于模板“想给[x]买个[y]”,“想给”和“买个”是模板词,而“[x]”是模板槽。在模板匹配过程中,模板词必须严格匹配,而模板槽可匹配任意内容。这里,通过在模板槽中填充具体内容从而生成模板实例的过程称作模板的实例化(instantiation)。例如,在模板“想买[x]买个[y]”的前后两个槽中分别填充“儿子”和“iPhone6”,便将上述模板实例化为“想给儿子买个iPhone6”。显然,一个模板可以实例化为多种不同的实例。

模板在信息抽取以及自动问答中已然获得十分广泛的应用,因此这两个研究方向的许多学者都曾提出过模板的抽取方法。与这些方向的研究类似,在消费意图类模板抽取的研究中,一部分学者使用基于规则的方法抽取模板。规则的制定通常要基于一系列的语言分析与预处理,如词性标注、命名实体识别和句法分析等。相应地,制定的复述规则也包括词序列规则、词性规则以及句法规则等形式。有学者[3,5]基于规则和基于图的方法分别获取意图模板。在基于图的方法中,通过将意图模板抽取看作为图上随机游走过程,而且定义的图节点将分别为模板节点和原始内容节点,其基本想法是,若模板节点+原始内容节点仍能出现在原始语料中,则该模板为候选模板,进而通过图迭代的方法获取最终模板。依据这一方法抽取得到的愿望模板可如下所示:

可以看到,基于规则的方法其缺点在于规则的可扩展性差,人工编写规则的工作量大,成本较高。具体来讲,由于人们在语言表述上具有复杂性和灵活性,规则的制定过程费时费力且难以覆盖所有的语言现象。规则往往依赖于具体语言、领域和文本风格,可移植性不好。同时基于规则的方法代价昂贵,且迁移性差,因此越来越多的研究者开始利用基于统计的方法来识别消费意图。

有研究者基于种子实例从产品评价中抽取产品受众者,即上述模板中的“[x]”。例如,Wang等人[6]将抽取产品受众者的模板用于产品推荐系统的目标人物抽取环节。研究中首先为其产品推荐系统设计了一个受众人分类体系,然后针对该体系人工编写少量“种子”实例。比如,对于“I bought my son this phone.”类型的产品评论,其编写的种子实例为“buy somebody something”。该方法利用种子实例作为输入,并使用基于boostrapping的方法从产品评论中匹配该种子实例的字符串,进而生成模板。依据此方法抽取得到的受众者模板如下所示:

3.2基于内容的消费意图识别

Goldberg等[3]首次提出了“buy wish”的概念(即本文定义的显式消费意图,如:想买一部手机)。研究是从用户在互联网上的愿望清单和产品评论中的内容来识别其中的消费意图。过程中,即事先人工给定了一些通用的消费意图规则模板,比如“I wish for”,而后再利用规则模板去匹配具有消费意图的句子。这种方法较为简单,但基于人工制定模板的匹配方法效果不甚理想,特别是系统的召回率很低。进而,作者提出了基于二元图方法自动抽取消费意图模板,如此生成的消费意图模板表达能力更强,使得系统识别的效果的性能也相对提高,特别是召回率有了显著的提升。在此基础上,作者加入了文本中词汇作为消费意图识别的特征。尽管采用词特征比较简单,但是通过实验结果发现文本中的词特征对于消费意图识别是非常有效的。

Chen和Hsu[4]也提出过相似的概念“Intention Posts”。研究者基于不同领域间消费意图表达方式相近的假设,即用于学习的训练样本与新的测试样本近似地满足独立同分布的条件。利用这种迁移学习(Transfer learning)的思想只需要在一个领域标注数据,并将其应用于一个新的没有任何标注的目标域数据。面对着消费意图文本中表达意图的内容通常只有一个或几个关键字,同时数据不平衡的问题,作者提出了Co-Class算法 。 首先,利用已有领域的标注数据构建一个分类器,然后将分类器应用到目标域的无标注数据中。这样,在目标数据中便可以重新形成特征选择,进而构建新的分类器。这两个分类器将共同对目标实施数据分类。这一迭代过程运行即直至类别标签对目标数据标注不再改变为止。作者分别在四个领域的语料上进行了迁移学习的实验,而通过实验则证明了提出的Co-class算法对跨领域迁移学习的消费意图识别任务是有效的。

Wang等[7]在不同领域的消费意图识别任务上展开了相关研究。研究提出了基于图的方法来识别Twitter中表达用户意图的内容。具体来说,该方法将要分类的Twitter内容和意图关键词(如:对句子“I want to buy an xbox”中“buy an xbox”即为文中定义的意图关键词)作为图上的节点,利用意图关键词和Twitter句子之间的关系形成边和边权重来构建图,继而使用图传播算法来完成在不同领域类别上的消费意图分类。此外,Ding等人[2]提出了基于领域自适应卷积神经网络的微博文本消费意图识别方法,并将此方法应用到了电影票房预测的任务上,研究证明,消费意图特征有助于预测电影票房,其原因在于用户对电影的消费意愿能直接反映出用户购票的活跃度。

3.3基于内容的消费对象识别

相比而言,已有研究主要针对基于内容的消费意图进行识别,很少研究消费意图句中的消费对象识别。本文定义消费对象是指消费者提出所需要购买的对象,即某段文本内容中所论述的对象。由于广告商所关注的正是用户针对某一消费对象的消费意图,而也就是这一存在使得消费意图研究更加突显其现实重要意义。但目前针对消费意图对象的相关研究较少。Wang等人[6]提出了从微博中挖掘趋势相关产品的问题。相应地即将“趋势”定义为在微博上被用户热烈讨论的话题。例如,如果有人在微博上说“最近北京空气很差”,那么就希望从空气很差这一趋势中,挖掘出空气净化器,口罩等与之相关的产品。

一般而言,现有的研究是从文本内容中挖掘产品命名实体[8-10]或是评价对象[11-14]。这里期望能从产品命名实体和评价对象抽取的研究中借鉴一些有价值的和方法,从而对消费对象抽取研究有所启发和促进。一方面,事实上产品命名实体抽取的研究属于命名实体识别的研究范畴。命名实体(Named Entity:NE)挖掘,主要是指从文本中挖掘出人名、地名、机构名等。早期命名实体的研究方法是基于人工规则的算法。近年来,一些机器学习的方法被应用到命名实体的研究之中。一部分学者采用基于分布假设计算词义相似度,其基本思想是那些倾向于出现在相似的上下文中的词意思相近,通过人工给定一组实体作为种子,其上下文作为模板并使用迭代的方法获取了给定目标类别下的新实体。以往的产品命名实体识别的研究主要是基于有指导的方法,然而这类方法需要标注大规模的训练语料,由于产品命名实体中词汇量比较大,新词频繁出现,经常出现缩略语,构建足够训练规模的产品命名实体训练集是比较困难的。这个问题对于消费对象识别来说同样存在,由于社会媒体中用户的内容随意,导致消费对象的成分多不完整,通常由缩略语等代替,故而诸如产品型号类:5s(指iPhone手机的型号5s)这种产品型号边界未必能够被识别出来。

在情感分析中有研究从评论中挖掘用户的评价对象。一般而言,现有的方法将评价对象的范围限定在名词或名词短语的范畴内,当然并非所有的名词或名词短语都是评价对象,因而需要对其进行识别。有研究者基于经验性的规则[12]或关联规则的方法找出频繁出现的评价对象[13-14],然后基于经验性的剪枝方法从中过滤错误的评价对象实例。还有学者将评价对象与产品属性之间关联起来,即认为产品属性可以作为评价对象的一种表达方式,如对一个手机来讲,“手机的像素”是手机的一个属性,而“触屏手机”是手机的部件之一。首先,该方法获取大量的名词短语作为候选评价对象;继而采用了某些关系指示短语(比如“属性-从性”关系指示词:attribute-of)来获取评价对象,最后利用候选评价对象和关系指示短语之间的共现关系,得出该候选评价对象是否是真正的评价对象。

4 未来的研究方向

消费意图识别作为产品推荐和自然语言处理领域的一个重要方向,还有许多有意义的问题值得研究,其中热点的研究方向和问题主要包括:

(1)虽然研究者们已经提出了多种方法用于消费意图句的识别、消费意图模板和消费对象识别等方法。然而总的来看识别出的准确率较低,仍有许多噪声数据无法过滤,特别是隐性消费意图识别鲜有研究。因此接下来的一个主要目标就是如何找到一种有效的方法对不同平台中的消费意图句进行准确识别。同时,迫切需要其后的研究者把消费意图识别的各项任务做细、做深。尤其是希望能找到一种对于各个平台或各个不同领域都适用的识别方法。

(2)目前来看,消费意图识别的大部分工作都集中在显式消费意图识别的研究任务中。然而与显式消费意图识别任务不同,隐式消费意图识别的研究任务也是比较有意义的问题。即在一个用户表达的文本中,挖掘出潜在的购买目标。这方面的研究工作还比较少且仍未臻深入。此外,相对于消费意图句的识别而言,基于用户消费意图的研究也还未展开,尤其是在跨平台上的研究远达到充分和全面。然而总的看来,基于隐式消费意图的研究和基于用户的消费意图研究方面还有许多的问题有待解决。

(3)消费意图研究中的评测问题一直是困扰研究者的一个主要问题。因此希望广大研究者们能够共同努力,推出一套大家都能认可和接受的评测体系和数据,这样定会极大的促进本研究的发展。本文基于内容的消费意图识别中各类实验大都采用人工评测的方法,基于用户的消费意图识别评价中采用了自动评价的方法。由于人工评测主观性强且费时费力,因此找到一种消费意图研究的自动评测方法还是非常有必要的。

(4)消费意图识别研究在众多相关研究中都有很大的应用潜力,如有研究是基于消费意图的电影票房预测取得了不错的性能。但这方面具体应用的例子仍不多。所以在今后的研究中,应该积极探索消费意图识别在各种实际任务中的作用,这样才能更好地推动此项研究深入开展。

6 结束语

社会媒体是一个基于用户关系的信息分享、传播以及获取平台,并实现即时分享。这即使得微博成为一个崭新的信息传播和用户交互的方式:一方面,人们通过微博各种消费需求信息,向家人、朋友、同事等寻求帮助,期望从朋友中获得产品的信息;另一方面,越来越多的用户也乐于在微博上分享各种感兴趣的话题和爱好进行即时分享。因而,迫切需要了解用户的消费意图或兴趣。消费意图识别作为产品推荐和自然语言处理领域的一个重要方向,目前的研究还远未足够。因此就需要在已有工作的基础上进一步钻研,针对尚且存在的问题展开攻关。另外,随着消费意图识别方法和技术的逐渐成熟,相应研究成果也将更为广泛地投入到实际应用中去,以促进诸如产品推荐、信息抽取、在线广告以及市场营销等相关研究的发展。

参考文献:

[1] B. Fu, T. LIU. Weakly-supervised Consumption Intent Detection in Microblogs [J]. Journal of Computational Information Systems, 2013, 6(9):2423C2431.

[2] X. Ding, T. Liu, J. Duan, et al. Mining User Consumption Intention from Social Media Using Domain Adaptive Convolutional Neural Network [C]// Proceedings of AAAI 2015, Austin, Texas,USA:AAAI,2015: 2389-2395.

[3] J. Ramanand, K. Bhavsar, N. Pedanekar. Wishful Thinking: Finding Suggestions and ‘buy’ Wishes from Product Reviews. [C]// Proceedings of NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text, Los Angeles, California:ACL, 2010:54C61.

[4] A. Goldberg, N. Fillmore, D. Andrzejewski, et al. May all Your Wishes Come True: A Study of Wishes and How to Recognize Them. [C]// Proceedings of NAACL HLT 2009, Boulder, Colorado:ACL, 2009:263C271.

[5] J. Wang, W. X. Zhao, H. Wei, et al. Mining New Business Opportunities: Identifying Trend Related Products by Leveraging Commercial Intents from Microblogs [C]// Proceedings of EMNLP 2013, Seattle, USA:ACL, 2013:1337C1347.

[6] Z. Chen, B. Liu, M. Hsu, et al. Identifying Intention Posts in Discussion Forums [C]// Proceedings of HLT- NAACL2013, Atlanda, GA, USA:ACL, 2013:1041C1050.

[7] J. Wang, G. Cong, X. W. Zhao, et al. Mining User Intents in Twitter: A Semi-supervised Approach to Inferring Intent Categories for Tweets [C]// Proceedings of AAAI 2015, Austin, Texas, USA:AAAI, 2015: 318-324.

[8] 刘非凡, 赵军, 吕碧波等. 面向商务信息抽取的产品命名实体识别研究[J].中文信息学报, 2006, 20(1):7C13.

[9] F. Luo, Q. Qiu, Q. Xiong. Introduction to the Product-entity Recognition Task [C]// Proceedings of Web Society (SWS), 2011 3rd Symposium on, Port Elizabeth, South Africa: Web Society,2011:122C126.

[10] F. Luo, H. Xiao, W. Chang. Product Named Entity Recognition Using Conditional Random Fields [C]// Proceedings of Business Intelligence and Financial Engineering (BIFE) 2011, Wuhan,China:[s.n.],2011:86C89.

[11] Y. Zhao, B. Qin, S. Hu, et al. Generalizing Syntactic Structures for Product Attribute Candidate Extraction [C]// Proceedings of NAACL 2010, Los Angeles, CA:ACL, 2010:377C380.

[12] J. Yi, T. Nasukawa, R. Bunescu, et al. Sentiment Analyzer: Extracting Sentiments about a Given Topic Using Natural Language Processing Techniques [C]// Proceedings of ICDM 2003, Melbourne, Florida, USA:ICDM, 2003:427C434.