神经网络文本分类范文
时间:2023-05-31 15:22:29
导语:如何才能写好一篇神经网络文本分类,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
P键词:深度学习;文本分类;多类型池化
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)35-0187-03
1 引言
为了进行分类,我们建立句子模型来分析和表示句子的语义内容。句子模型问题的关键在于一定程度上的自然语言理解。很多类型的任务需要采用句子模型,包括情感分析、语义检测、对话分析、机器翻译等。既然单独的句子很少或基本不被采用,所以我们必须采用特征的方式来表述一个句子,而特征依赖于单词和词组。句子模型的核心是特征方程,特征方程定义了依据单词和词组提取特征的过程。求最大值的池化操作是一种非线性的二次抽样方法,它返回集合元素中的最大值。
各种类型的模型已经被提出。基于成分构成的方法被应用于向量表示,通过统计同时单词同时出现的概率来获取更长的词组。在有些情况下,通过对词向量进行代数操作生成句子层面的向量,从而构成成分。在另外一些情况下,特征方程和特定的句法或者单词类型相关。
一种核心模型是建立在神经网络的基础上。这种模型包含了单词包或者词组包的模型、更结构化的递归神经网络、延迟的基于卷积操作的神经网络。神经网络模型有很多优点。通过训练可以获得通用的词向量来预测一段上下文中单词是否会出现。通过有监督的训练,神经网络能够根据具体的任务进行良好的调节。除了作为强大的分类器,神经网络模型还能够被用来生成句子[6]。
我们定义了一种卷积神经网络结构并将它应用到句子语义模型中。这个网络可以处理长度不同的句子。网络中的一维卷积层和多类型动态池化层是相互交错的。多类型动态池化是一种对求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化体现在两个方面。第一,多类型池化操作对一个线性的值序列进行操作,返回序列中的多个数值而不是单个最大的数值。第二,池化参数k可以被动态的选择,通过网络的其他参数来动态调整k的值。
卷积层的一维卷积窗口对句子特征矩阵的每一行进行卷积操作。相同的n-gram的卷积窗口在句子的每个位置进行卷积操作,这样可以根据位置独立地提取特征。一个卷积层后面是一个多类型动态池化层和一个非线性的特征映射表。和卷积神经网络在图像识别中的使用一样,为丰富第一层的表述,通过不同的卷积窗口应用到句子上计算出多重特征映射表。后续的层也通过下一层的卷积窗口的卷积操作计算出多重特征映射表。最终的结构我们叫它多类型池化的卷积神经网络。
在输入句子上的多层的卷积和动态池化操作产生一张结构化的特征图。高层的卷积窗口可以获取非连续的相距较远的词组的句法和语义关系。特征图会引导出一种层级结构,某种程度上类似于句法解析树。这种结构不仅仅是和句法相关,它是神经网络内部所有的。
我们将此网络在四种场景下进行了尝试。前两组实验是电影评论的情感预测[2],此网络在二分和多种类别的分类实验中的表现都优于其他方法。第三组实验在TREC数据集(Li and Roth, 2002)上的6类问题的分类问题。此网络的正确率和目前最好的方法的正确率持平。第四组实验是推特的情感预测,此网络将160万条微博根据表情符号自动打标来进行训练。在手工打标的测试数据集上,此网络将预测错误率降低了25%。
本文的概要如下。第二段主要阐述MCNN的背景知识,包括核心概念和相关的神将网络句子模型。第三章定义了相关的操作符和网络的层。第四章阐述生成的特征图的处理和网络的其他特点。第五章讨论实验和回顾特征学习探测器。
2 背景
MCNN的每一层的卷积操作之后都伴随一个池化操作。我们先回顾一下相关的神经网络句子模型。然后我们来阐述一维的卷积操作和经典的延迟的神经网络(TDNN)[3]。在加了一个最大池化层到网络后,TDNN也是一种句子模型[5]。
2.1 相关的神经网络句子模型
已经有很多的神经网络句子模型被描述过了。 一种比较通用基本的模型是神经网络词包模型(NBoW)。其中包含了一个映射层将单词、词组等映射到更高的维度;然后会有一个比如求和之类的操作。结果向量通过一个或多个全连接层来进行分类。
有以外部的解析树为基础的递归神经网络,还有在此基础上更进一步的RNN网络。
最后一种是以卷积操作和TDNN结构为基础的神经网络句子模型。相关的概念是动态卷积神经网络的基础,我们接下来介绍的就是它。
2.2 卷积
一维卷积操作便是将权重向量[m∈Rm]和输入向量[s∈Rs]进行操作。向量m是卷积操作的过滤器。具体来说,我们将s作为输入句子,[si∈R]是与句子中第i个单词相关联的单独的特征值。一维卷积操作背后的思想是通过向量m和句子中的每个m-gram的点积来获得另一个序列c:
[ci=mTsi-m+1:i (1)]
根据下标i的范围的不同,等式1产生两种不同类型的卷积。窄类型的卷积中s >= m并且会生成序列[c∈Rs-m+1],下标i的范围从m到s。宽类型的卷积对m和s的大小没有限制,生成的序列[c∈Rs+m-1],下标i的范围从1到s+m-1。超出下标范围的si窄(i < 1或者i > s)置为0。窄类型的卷积结果是宽类型的卷积结果的子序列。
宽类型的卷积相比于窄类型的卷积有一些优点。宽类型的卷积可以确保所有的权重应用到整个句子,包括句子收尾的单词。当m被设为一个相对较大的值时,如8或者10,这一点尤其重要。另外,宽类型的卷积可以确保过滤器m应用于输入句子s始终会生成一个有效的非空结果集c,与m的宽度和s句子的长度无关。接下来我们来阐述TDNN的卷积层。
4 验与结果分析
我们对此网络进行了4组不同的实验。
4.1 电影评论的情感预测
前两组实验是关于电影评论的情感预测的,数据集是Stanford Sentiment Treebank.实验输出的结果在一个实验中是分为2类,在另一种试验中分为5类:消极、略微消极、中性、略微积极、积极。而实验总的词汇量为15448。
表示的是电影评论数据集情感预测准确率。NB和BINB分别表示一元和二元朴素贝叶斯分类器。SVM是一元和二元特征的支撑向量机。在三种神经网络模型里――Max-TDNN、NBoW和DCNN――模型中的词向量是随机初始化的;它们的维度d被设为48。Max-TDNN在第一层中滤波窗口的大小为6。卷积层后面紧跟一个非线性化层、最大池化层和softmax分类层。NBoW会将词向量相加,并对词向量进行非线性化操作,最后用softmax进行分类。2类分类的MCNN的参数如下,卷积层之后折叠层、动态多类型池化层、非线性化层。滤波窗口的大小分别7和5。最顶层动态多类型池化层的k的值为4。网络的最顶层是softmax层。5类分类的MCNN有相同的结构,但是滤波窗口的大小分别为10和7,k的值为5。
我们可以看到MCNN的分类效果远超其他算法。NBoW的分类效果和非神经网络算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因为过度池化的原因,丢弃了句子太多重要的特征。除了RecNN需要依赖外部的解析树来生成结构化特征,其他模型都不需要依赖外部资源。
4.2 问题分类
问题分类在问答系统中应用非常广泛,一个问题可能属于一个或者多个问题类别。所用的数据集是TREC数据集,TREC数据集包含6种不同类别的问题,比如一个问题是否关于地点、人或者数字信息。训练集包含5452个打标的问题和500个测试集。
4.3 Twitter情感预测
在我们最后的实验里,我们用tweets的大数据集进行训练,我们根据tweet中出现的表情符号自动地给文本进行打标签,积极的或是消极的。整个数据集包含160万条根据表情符号打标的tweet以及400条手工标注的测试集。整个数据集包含76643个单词。MCNN的结构和4.1节中结构相同。随机初始化词向量且维度d设为60。
我们发现MCNN的分类效果和其他非神经网络的算法相比有极大的提高。MCNN和NBoW在分类效果上的差别显示了MCNN有极强的特征提取能力。
5 结语
在本文中我们阐述了一种动态的卷积神经网络,它使用动态的多类型池化操作作为非线性化取样函数。此网络在问题分类和情感预测方面取得了很好的效果,并且不依赖于外部特征如解析树或其他外部资源。
参考文献
[1]. Yann LeCun, Le ?on Bottou, Yoshua Bengio, and Patrick Haffner. 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278-2324, November.
[2]. Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D. Manning, Andrew Y. Ng, and Christopher Potts. 2013b. Recursive deep mod- els for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 Conference on Empirical Methods in Natural Language Process- ing, pages 1631C1642, Stroudsburg, PA, October. Association for Computational Linguistics.
[3]. Geoffrey E. Hinton. 1989. Connectionist learning procedures. Artif. Intell., 40(1-3):185C234.
[4]. Alexander Waibel, Toshiyuki Hanazawa, Geofrey Hinton, Kiyohiro Shikano, and Kevin J. Lang. 1990. Readings in speech recognition. chapter Phoneme Recognition Using Time-delay Neural Networks, pages 393C404. Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.
篇2
关键词: 电子邮件; 分类模型; 特征提取; 垃圾邮件; 主成分分析
中图分类号: TN915.08?34 文献标识码: A 文章编号: 1004?373X(2017)01?0077?03
Abstract: The E_mail classification is conducive to filter out the spam mail and save the network resources. In order to improve the accuracy of the E_mail classification, an E_mail classifier model using improved support vector machine is proposed. The original features of E_mail are extracted, and selected with the principal component analysis to reduce the feature quantity and improve the E_mail classification efficiency. The support vector machine is used to establish the E_mail classifier. The parameter selection method of the traditional support vector machine was improved to perfect the E_mail classification effect. The standard database UCI of the E_mail classification is used to analyze the classification performance. The results show that the improved support vector machine has solved the insufficient of the current E_mail classification model, and obtained the satisfied E_mail classification effect, which can help managers to block the spam mail.
Keywords: E_mail; classification model; feature extraction; spam mail; principal component analysis
0 引 言
随着经济水平的不断提高,家家户户有了计算机,网民越来越多。电子邮件(E_mail)是一种人们在网络上交流的常用工具,受到了人们的广泛关注[1]。网络是一个新兴事件,网络中有大量垃圾邮件,它们不仅浪费网络资源,给人们工作带来困扰,而且给一些不法分子提供了可乘之机,因此,对E_mail进行有效分类找出其中的垃圾]件具有重要的实际意义[2]。
E_mail与文本有很多相似之处,为此一些学者将文本分类方法引入E_mail分类中,通过分类算法将邮件分为正常邮件和垃圾邮件[3]。同时E_mail是一种半结构化文本,具有自身的特殊性,采用传统文本分类方法用于E_mail分类,分类的精度低,邮件错分现象严重,导致一些正常邮件被拦截,而且一些垃圾邮件没有被过滤掉[4]。近些年来,一些学者将模式识别技术引入到E_mail分类中,首先提取E_mail的原始特征,然后采用K近邻算法和神经网络等建立E_mail分类模型,获得了不错的E_mail分类效果[5]。E_mail的原始特征维数高,若直接输入到K近邻算法和神经网络进行分类,分类时间长、效率低,而且可能存在一些无用特征,对E_mail分类效果产生干扰[6]。特征筛选可以去除无用特征,减少特征数量,提高学习效率[7]。K近邻算法假设E_mail的类别与特征间是线性变化关系,这与实际情况不相符,分类精度要低于神经网络[2]。神经网络虽然可以描述E_mail的类别与特征间的变化关系,但要求样本多,网络结构复杂,当特征维数高时,出现“维数灾”现象的概率高[8]。支持向量机(Support Vector Machine,SVM)是一种新型机器学习算法,避免了“维数灾”现象的出现,且分类效果要优于神经网络,在E_mail分类中得到了广泛的应用[9]。支持向量机参数优化问题一直悬而未解,影响在E_mail分类中的应用范围[10]。
针对当前E_mail分类模型存在的难题,为了提高邮件分类的精度,提出一种改进支持向量机的电子邮件分类器模型(ISVM),结果表明,改进支持向量机获得了良好的电子邮件分类效果,可以满足垃圾邮件处理的要求。
1 E_mail分类模型的工作原理
E_mail分类模型的工作原理如图1所示。从图1可以看出,特征提取和选择是获得较优E_mail分类结果的基础,当前E_mail特征提取和选择研究少,主要采用人工凭经验确定特征的数量,特征选择具有主观性,影响E_mail分类器的构建;E_mail的分类器是获得理想分类结果的关键,虽然SVM可以描述E_mail的变化特点,但如果核函数及参数选择不合理,E_mail分类效果很差,本文采用布谷鸟搜索算法选择SVM的核函数参数,以获得高精度的E_mail分类结果。
2 改进支持向量机
2.1 标准支持向量机
支持向量机根据最优分类超平面将训练样本分开,而且类别之间的间隔最大。对于包含两个样本的训练集,如果超平面可将它们全部分开,表示训练样本集是线性可分的,训练集的数量为那么训练集描述为:其中表示样本输入;表示样本的类别。支持向量机的超平面如图2所示。
基于支持向量机的惩罚参数和径向基核参数影响的性能,本文选择布谷鸟搜索算法确定和的值。
2.2 布谷鸟搜索算法
布谷鸟搜索算法(CS)是一种应用范围很广的智能搜索算法,假设有三种状态,具体如下:
(1) 一只布谷鸟仅下一个蛋,并随机分布于鸟巢中。
(2) 部分较优的鸟巢直接进入到下一代,组成新的鸟巢[11]。
(3) 每一个鸟巢中的布谷鸟蛋被宿主发现的概率是相等的。
将支持向量机参数和编码成为一个鸟巢位置,根据训练样本计算每一组参数的和目标函数值,并选择目标函数值最优者作为当前最优鸟巢,然后对布谷鸟搜索的路径和位置不断迭次,产生新一代的鸟巢,当迭代次数达到最大迭代次数时,最优鸟巢位置对应的和即为找到的最优参数。
3 改进支持向量机的E_mail分类
改进支持向量机的E_mail分类步骤为:
Step1:收集相应数量的E_mail,并进行一些预处理,如删除其中没有意义的数据,将它们转换为相应的格式。
Step2:提取E_mail特征,通过词和类别的互信息量作为E_mail原始特征,对它们进行归一化处理。
Step3:采用主成分分析法对E_mail原始特征进行选择,提取最优的特征子集,并根据特征子集对E_mail训练样本和测试样本进行处理,减少数据规模。
Step4:将训练样本输入到支持向量机进行训练,并采用布谷鸟搜索算法确定最优参数和建立E_mail分类器。
Step5:采用测试样本对E_mail分类器的性能进行测试和分析。
4 实验结果与分析
为了分析ISVM的E_mail分类性能,选择邮件分类的标准数据集――UCI数据库作为研究对象,该数据集共有4 601个样本,每一个样本有58个特征,垃圾邮件的标签为“1”,正常邮件的标签为“0”,在Matlab 2014工具箱编程中实现E_mail分类模型。由于数据库中的样本比较多,随机选择30%的样本进行仿真实验,训练样本和测试样本数量采用31的形式进行划分。采用分类准确率(Precision)、分类召回率(recall)对结果进行分析,具体如下:
5 结 语
为了消除垃圾邮件对人们工作和生活的负面影响,提高电子邮件分类精度,本文提出一种改进支持向量机的电子邮件分类模型,结果表明,改进支持向量机解决了当前电子邮件分类模型存在的不足,获得了理想的电子邮件分类效果,减少了系统分发邮件的工作量,分类结果可以帮助管理人员拦截垃圾邮件,具有广泛的应用前景。
参考文献
[1] 蒲筱哥.Web自动邮件分类技术研究综述[J].情报W报,2009,28(2):233?241.
[2] 刘赫,刘大有,裴志利,等.一种基于特征重要度的邮件分类特征加权方法[J].计算机研究与发展,2009,46(10):1693?1703.
[3] 陈东亮,白清源.基于词频向量的关联邮件分类[J].计算机研究与发展,2009,46(2):464?469.
[4] 吴江宁,刘巧凤.基于图结构的中文邮件表示方法研究[J].情报学报,2010,32(4):618?624.
[5] 王波,黄迪明.遗传神经网络在电子邮件过滤器中的应用[J].电子科技大学学报,2005,34(4):505?508.
[6] 李惠娟,高峰,管晓宏,等.基于贝叶斯神经网络的垃圾邮件过滤方法[J].微电子学与计算机,2005,22(4):107?111.
[7] 陈华辉.一种基于潜在语义索引的垃圾邮件过滤方法[J].计算机应用研究,2000,17(10):17?18.
[8] 宋胜利,王少龙,陈平.面向邮件分类的中文邮件语义表示方法[J].西安电子科技大学学报,2013,40(2):89?97.
[9] 张兢,侯旭东,吕和胜.基于朴素贝叶斯和支持向量机的邮件智能分析系统设计[J].重庆理工大学学报(自然科学版),2010,24(1):77?81.
篇3
摘 要 水系是重要的地性线,常被看成是地形的“骨架”,对其他要素有一定的制约作用。快速提取遥感影像上水系的线性特征,获
>> 一种基于非监督判别语义特征提取的文本分类算法 基于监督局部线性嵌入特征提取的高光谱图像分类 基于提取网站层次结构的网页分类方法 基于自动机模型的构件集成软件测试要素的提取 基于AAM关键特征点提取的人脸照片分类方法的研究与应用 基于支持向量机分类水平集方法的图像特征提取研究 基于局部序列图像的虹膜特征提取与分类研究 基于分类结果的多光谱遥感影像端元提取方法 基于样本熵的运动想象脑电信号特征提取与分类方法 基于小波包与共空间模式的脑电信号特征提取与分类 基于动态特征提取和神经网络的数据流分类研究 基于局部保持投影的神经尖峰电位特征提取与分类 中文文本分类中基于概念屏蔽层的特征提取方法 解题信息的分类与提取 基于风险导向的内部控制监督要素的实施方案 基于光谱特征的监督分类方法在黄河口湿地的应用比较 结合均值漂移的基于图的半监督图像分类 基于锚点建图的半监督分类在遥感图像中的应用 基于纹理分类的高分辨率卫星城市用地信息提取 基于局部学习的半监督多标记分类算法 常见问题解答 当前所在位置:l.
[4]游代安.GIS辅助的遥感图像处理与分析技术的研究[D].信息工程大学,2001.
[5]郭德方.遥感图像的计算机处理和模式识别[M].电子工业出版社,1984.
[6]王刚,李小曼,田杰.几种TM影像的水体自动提取方法比较[J].测绘科学,2008(03).
篇4
关键词: 网络购物评论; 文本分类; SVM; 多核学习
中图分类号:F406.2 文献标识码:A 文章编号:1006-8228(2012)04-43-03
A classification method of online reviews based on MKL-SVM
Hu Han
(Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)
Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVM’s problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.
Key words: customer review; text classification; SVM; multiple kernel learning
0 引言
购物网站都建立有顾客评论系统,收集顾客对于商品及网站服务的体验感受。由于购物评论表达形式繁杂、内容随意、句型多样,给企业有效跟踪和管理用户评论意见,带来了很大的难度。
文本分类(text categorization)应用分类函数或分类模型,把文本映射到多个类别中的某一类,使检索或查询的速度更快,准确率更高。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域有着广泛的应用。主要分类方法有:贝叶斯、决策树、支持向量机(Support Vector Machines, SVM)、神经网络、遗传算法等。其中SVM通过分隔面模式摆脱了样本分布、冗余特征以及过度拟合等因素的影响,具有很好的泛化学习能力[1]。但是SVM存在训练收敛速度慢,分类精度难以提高等缺点。
核函数是SVM解决非线性问题的方法,受限于单个核函数性能,使得SVM泛化学习能力有限,分类精度难以提升。多核学习(Multiple Kernel Learning,MKL)利用对同质(homogeneous)或异质(heterogeneous)核函数优化整合,提高了SVM的学习能力和泛化性能。在处理大量异质数据时,MKL具有很好的灵活性,且分类结果更清晰,便于解决现实应用问题[2],但MKL涉及较多的相关参数的优化。对MKL研究目前主要集中在图像识别领域[3,4]。本文通过校准算法确定MKL异质核函数的优化权系数和核参数,建立基于多核学习的支持向量机(Multiple Kernel Learning SVM, MKL-SVM)文本分类模型,提升SVM在评论分类中的应用效果。
1 MKL-SVM方法描述
1.1 SVM核函数
SVM是基于统计学理论中的结构风险最小化原理,具有高泛化性能的通用学习机。设分割面,样本集线性可分时,SVM通过一个分割超平面,把训练样本点分类,使两类训练点到分割面的最小距离之和分类间隔(margin)最大[5]。分类间隔margin=2/||ω||,使间隔最大等价于使||ω||2最小。最优分类面的求解可以转化为优化问题:
s.t.
利用Lagrange优化可将上述问题转为其对偶问题:求解下列函数:
max:
s.t.和。
最优分类函数是
。
上述式中a:为Lagrange非负乘子
将低维的输入空间数据通过非线性映射函数映射到高维属性空间,输入空间线性不可分问题在属性空间将转化为线性可分问题。这种非线性映射函数称之为核函数[6]。设x在χ对应一个映射到高纬空间,φ(x)为核映射函数,K核函数为,,SVM寻找的超平面胃。此时目标函数变为:
而
考虑最大分割和训练误差,优化公式为:
s.t.
1.2 多核学习
设函数集合M由多个核函数K1…Km组成,核函数对应的映射函数是φ1…φM。MKL[7]公式:
s.t.
其中ωk表示φk在整个学习机中的权重。
其中00, k=1,2….M;多核学习核函数KMKL是Ki的凸线性组合:;最终的分类函数。
1.3 MKL-SVM及优化参数计算
MKL-SVM核函数的选择取决于对数据处理的要求。具有全局性的核函数和局部性的核函数的分类性能互补,可以使用不同核函数组成多核核函数[8],但是如果MKL异质核函数种类过多,会使SVM训练过于复杂。因此,本研究选用M=2,核函数选择了:Gaussian径向基核函数RBF (Radial Basis Function)。局部核函数具有较好的学习能力,而泛化推广能力较弱。多项式核函数(Polynomial Function, PF)是一个全局性核函数,具有较好的泛化推广能力,而学习能力则要弱些。Sigmoid核函数在神经网络的应用中,具有良好的全局分类性能。对有下面2种实现形式:
MKL-SVM计算中核参数σ、d、β0、β需要寻找合适的值使得SVM测试错误率最小。权系数λ对MKL-SVM起着关键作用也需要进行寻优。核参数和权系数的确定是MKL-SVM非常重要的环节。本文利用核函数之间的关系等价于核矩阵之间的关系,结合交叉验证技术LOO和核校准(kernel alignment)[9],建立如下优化求解步骤:
①,表示两个核矩阵之间的内积。
核校准度量k1与k2在样本集S上的差异。核校准是一个标量值,体现了不同核函数之间的差异关系。
② 对k1,k2使用LOO方法,求出核参数,使达到最大的核参数。
③ 定义函数
④ 构造一个权参数λ和乘子αi的拉格朗日方程,构造二次规划子问题:
⑤ 重复步骤④直到误差最小,算法收敛到最优的λ值。
2 实例分析
2.1 评估标准和分类维度
表1 购物评论分类维度
[[评论对象\&编号\&维度\&解释\&售前服务\&A1\&购买咨询\&是否提供在线问答解决顾客疑问\&A2\&信息提供全面性\&网站商品信息是否满足顾客需求\&商品\&B1\&定价\&价格浮动给顾客带来的影响\&B2\&商品特征\&对商品使用感受\&网站服务\&C1\&支付方式\&网站方便、种类多、安全\&C2\&内部配货、调货\&企业内部订单处理速度\&C3\&信息沟通\&及时传递商品处理信息给顾客\&物流服务\&D1\&及时性\&物流时间是否合理\&D2\&态度\&快递服务、送货上门态度\&D3\&质量\&外包装磨损、安全\&售后服务\&E1\&换、退货\&问题商品的处理\&]]
对于需要分类的n个状态,我们以ce表示对第i个状态分类出的正确信息个数,te表示没有分类出的正确信息个数,fe为错误信息个数。以精确度P(Precision)表示系统正确分类信息占所有分类信息的比例,;召回率R(Recall)表示系统分类出的正确信息占所有可能正确信息的比例,。评论模型性能需要同时考虑P和R,为此引入,其中β是P和R的相对权重,决定对P侧重还是对R侧重,通常设定为1。F值越大,说明分类性能越好。
围绕购物网站服务流程,本研究结合顾客购物评论中的常见主题,总结出了评论的分类维度(表1)。
2.2 方法评估与应用
本文从卓越亚马逊、当当网等购物网站,下载了不同商品的3000条购物评论。随机抽取2000条作为训练集,其余作为测试集,对比几种方法F值。从图1可以看出,单核SVM中Gaussian RBF优于Polynomial;而MKL-GP和MKL-GS分类性能都优于单核SVM。其中MKL-GP效果好于MKL-SG,这是由于Sigmoid函数在某些特定条件下,才满足核函数对称、半正定的要求,因此影响了其分类的性能。
图1 不同方法分类F值
表2 数据集实验结果
[[样本量\&Polynomial
SVM (F值)\&Gaussian RBF
SVM(F值)\&MKL-GS
SVM(F值)\&MKL-GP
SVM(F值)\&300\&0.6573\&0.6639\&0.5081\&0.6047\&600\&0.6894\&0.7429\&0.7026\&0.7493\&1000\&0.7047\&0.7579\&0.8081\&0.8169\&2000\&0.7715\&0.8040\&0.8559\&0.8621\&3000\&0.7745\&0.8037\&0.8551\&0.8676\&]]
本文使用不同的样本量对两种算法进行对比,其中F值使用均值。从表2可以看出,在样本量不够大时,MKL-GS受Sigmoid函数特性影响性能较差;随着样本数量的增加,MKL优势逐渐明显,表现出优于单核SVM的分类性能;样本量到2000之后,SVM分类性能的提升就不明显,有待更进一步优化。
3 结束语
网络购物评论分析需要多种技术的结合。MKL-SVM方法通过集成学习发挥异质核函数不同特性,实现了购物评论分类性能的提升。本文所做的工作仅仅是购物评论分析的第一步,还需要结合文本挖掘、情感分析、营销分析等方法,才能帮助企业掌握消费者的感受,给予更多智能化的决策建议。网络上存在各类评论、新闻、博客、微博,对这些文本的分类分析,只要通过优选核函数以及相关参数,可以参照MKL-SVM方法获取更好的分类性能。
参考文献:
[1] 苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006.17(9):1848~1859
[2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14
[3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565
[4] Koji Tsuda, Gunnar Rätsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338
[5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790
[6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782
[7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12
篇5
Apache Kafka:以着名的捷克作家命名的Apache Kafka用于构建实时数据流管道和流媒体应用程序。为什么这么受欢迎?因为它能够以容错的方式存储,管理和处理数据流,并且十分快速。鉴于社交网络环境处理数据流,Kafka目前非常受欢迎。
ApacheMahout:Mahout提供了一个用于机器学习和数据挖掘的预制算法库,也是创建更多算法的环境。换句话说,是一个机器学习的天堂环境。
ApacheOozie:在任何编程环境中,需要一些工作流程系统来以预定义的方式和定义的依赖关系来安排和运行工作。Oozie提供的大数据工作以Apachepig,MapReduce和Hive等语言编写。
Apache Drill,Apache Impala,Apache Spark SQL:所有这些都提供了快速和交互式的SQL,如与Apachehadoop数据的交互。如果你已经知道SQL,并处理以大数据格式(即HBase或HDFS)存储的数据,这些功能将非常有用。
ApacheHive:知道SQL?然后采用Hive握手。Hive便于使用SQL读取,写入和管理驻留在分布式存储中的大型数据集。
ApachePig:Pig是在大型分布式数据集上创建查询执行例程的平台。所使用的脚本语言叫做PigLatin。据说Pig很容易理解和学习。但问题是有多少人能从Pig学到什么?
Apach eSqoop:用于将数据从Hadoop移动到非Hadoop数据存储(如数据仓库和关系数据库)的工具。
Apache Storm:一个免费的开源实时分布式计算系统。它使得使用Hadoop进行批处理的瞬时处理可以更容易地处理非结构化数据。
人工智能(AI):人们可能会问,为什么在这里会有人工智能?人工智能不是一个单独的领域,所有这些趋势技术都是如此相关,人工智能开发智能机器和软件的方式,使得硬件和软件的这种组合能够感知环境,在需要时采取必要的措施,并继续学习这些操作。
行为分析:有没有想过谷歌如何为人们需要的产品/服务提供广告?行为分析侧重于理解消费者和应用程序所做的事情,以及如何以及为什么它们以某种方式起作用。它是关于了解人们的网上冲浪模式,社交媒体互动,电子商务行动(购物车等),并连接这些无关的数据点,并试图预测结果。
Brontobytes:10的27次幂,这是数字宇宙的大小。在这里,可以了解TB字节,PB字节,EB字节,ZB字节,YB字节,以及Brontobyte。人们今后会更多地了解这些术语。
商业智能(BI):在这里引用调研机构Gartner对商业智能的定义。商业智能(BI)是一个总括的术语,其中包括应用程序,基础设施和工具以及最佳实践,可以访问和分析信息,以改善和优化决策和绩效。
生物特征:这就是JamesBondish技术与分析技术相结合,通过一个或多个物理特征识别人,如面部识别,虹膜识别,指纹识别等。
点击流分析:用于分析用户在网络上浏览的在线点击。曾经想过为什么某些Google广告还会继续关注你,即使切换网站等?因为知道你在点击什么。
聚类分析:试图识别数据中的结构的探索性分析。聚类分析也称为分割分析或分类分析。更具体地说,它试图确定同一组案例,即观察者,参与者,回答者。如果分组不是先前已知的,则使用聚类分析来识别病例组。因为它是探索性的,它确定了依赖变量和独立变量之间的区别。SPSS提供的不同的聚类分析方法可以处理二进制,名义,顺序和比例(间隔或比率)数据。
比较分析:大数据的核心在分析中。顾名思义,比较分析是使用诸如模式分析,过滤和决策树分析之类的统计技术来比较多个进程,数据集或其他对象。人们知道它的技术性很差,但不能完全避开这个术语。比较分析可用于医疗保健,比较大量的医疗记录,文件,图像等更有效和更准确的医疗诊断。
连接分析:你一定已经看到这些像蜘蛛网一样的网络图表连接主题等,以识别某些主题的影响者。连接分析是有助于发现网络中人员,产品和系统之间的这些相互关联的连接和影响,甚至组合来自多个网络的数据的分析。
数据分析师:数据分析师是一个非常重要和受欢迎的工作职位,除了准备报告之外,它还负责收集,操纵和分析数据。
数据清理:这有点不言自明,它涉及从数据库中检测和纠正或删除不准确的数据或记录。还记得“脏数据”吗?那么,使用人工和自动化工具和算法的组合,数据分析人员可以纠正和丰富数据以提高其质量。记住,肮脏的数据会导致错误的分析和错误的决策。
DaaS:你有SaaS,PaaS和DaaS为代表的数据即服务吗?通过向客户提供按需访问云托管数据,DaaS提供商可以帮助快速获取高质量的数据。
数据虚拟化:这是数据管理的一种方法,允许应用程序检索和操作数据,而不需要其存储位置及其格式等的技术细节。例如,社交网络将人们的照片存储在他们的网络中。
脏数据:现在,大数据变得很流行,人们开始在数据中添加形容词,产生新的术语,如暗数据、脏数据、小数据,现在是智能数据。肮脏的数据就是不干净的数据,换句话说,是不准确、重复的,以及不一致的数据。显然,企业不希望与脏数据关联。
模糊逻辑:人们对100%这样的事物有多少把握?非常罕见。人类的大脑将数据聚合成部分真理,然后再抽象成某种阈值,来决定我们的反应。模糊逻辑是一种通过模仿部分真理来模仿人脑的运算,而不是像布尔代数的其余部分那样的“0”和“1”这样的绝对真理。模糊逻辑在自然语言处理中得到了广泛的应用,并已发展成为其他与数据相关的学科。
游戏化:在一个典型的游戏中,有人们喜欢的得分要素,与他人竞争,某些游戏规则等元素。大数据中的游戏化是使用这些概念来收集数据或分析数据或通常激励用户。
图形数据库:图形数据库使用的概念,如节点和边界代表人员/企业和他们的相互关系,从社交媒体挖掘数据。曾经想过,亚马逊如何告诉你在购买产品时,别人买了什么?是的,图形数据库!
Hadoop用户体验(Hue):Hue是一个开放源代码界面,使Apache Hadoop变得更加容易。它是一个基于Web的应用程序,并且具有用于HDFS的文件浏览器,MapReduce的作业设计器,用于制作协调器和工作流程的Oozie应用程序,Shell,Impala和HiveUI以及一组HadoopAPI。
HANA:高性能分析应用程序,来自SAP的软件/硬件内存中平台,专为大量数据交易和分析而设计。
HBase:一个分布式,面向列的数据库。它使用HDFS作为其底层存储,并支持使用MapReduce和事务交互的批量计算。
负载平衡:跨多台计算机或服务器分布工作负载,以实现系统的最佳结果和利用率。
元数据:元数据是描述其他数据的数据。元数据总结了有关数据的基本信息,可以使查找和处理特定数据实例更容易。例如,作者,创建日期和日期修改以及文件大小是非常基本的文档元数据。除文档文件外,元数据也用于图像,视频,电子表格和网页。
Mongo DB:一个跨平台的开源数据库,它使用面向文档的数据模型,而不是传统的基于关系数据库的表结构。这种类型的数据库结构旨在使结构化和非结构化数据在某些类型的应用程序中更加容易和快速地集成。
Mashup:幸运的是,这个术语对于我们在日常生活中了解mashup的定义类似。基本上,Mashup是将不同数据集合并为单个应用程序的一种方法(示例:将房地产清单与人口统计数据或地理数据相结合)。这是一个非常好的可视化。
多维数据库:针对数据在线分析处理(OLAP)应用程序和数据仓库进行优化的数据库。它只不过是数据多个数据源的中央存储库。
多值数据库:它们是一种直接了解三维数据的NoSQL和多维数据库。它们直接用于直接操作HTML和XML字符串。
自然语言处理:为使计算机更精确地理解日常人类语言而设计的软件算法,使人们能够更自然、更有效地与之交互。
神经网络:神经网络是一个美丽的生物学启发的编程范例,使计算机能够从观测数据中学习。有人称编程范例很美,本质上,人工神经网络是由现实生活中大脑的生物学启发的模型。与这种神经网络密切相关的是深度学习。深入学习则是一套功能强大的神经网络学习技术。
模式识别:当一个算法在大数据集或不同的数据集中定位递归或规律时,就会出现模式识别。它紧密相连,甚至被认为是机器学习和数据挖掘的代名词。这种可见性可以帮助研究人员发现见解或得出结论,否则会被掩盖。
RFID-射频识别:一种使用无线非接触式射频电磁场传输数据的传感器。随着物联网革命,RFID标签可以嵌入到每一个可能的“东西”中,以产生需要分析的巨大数据量。
SaaS:软件即服务,使供应商能够托管应用程序并通过互联网使其可用。SaaS提供商通过云计算提供服务。
半结构化数据:半结构化数据是指以常规方式未被捕获或格式化的数据,例如与传统数据库字段或公共数据模型相关联的数据。它也不是原始的或完全非结构化的,并且可能包含一些数据表,标签或其他结构元素。图形和表格,XML文档和电子邮件是半结构化数据的示例,它在万维网上是非常普遍的,通常在面向对象的数据库中。
情绪分析:情绪分析涉及捕捉和跟踪消费者在各种交互或文件(包括社交媒体,客户服务代表呼叫,调查等)中表达的意见,情绪或感受。文本分析和自然语言处理是情绪分析过程中的典型活动。目标是确定或评估对公司,产品,服务,人员或事件表达的情绪或态度。
空间分析:指分析地理数据或拓扑数据的空间数据,以识别和理解分布在地理空间中的数据内的模式和规律。
流处理:流处理旨在通过“连续”查询对实时和流数据进行操作。随着从社交网络不断流出的数据,流处理和流分析的确需要在这些流中不间断地计算数学或统计分析,以便实时处理大量的数据。
智能数据:智能数据据称是在通过算法进行的一些过滤之后,其数据是有用的和可操作的。
TB字节:一个相对较大的数字数据单元,一T字节(TB)等于1000GB字节。据估计,10T字节可以容纳美国国会图书馆的全部印刷品,而1T字节可以容纳1000份百科全书。
可视化:通过正确的可视化,原始数据可以投入使用。当然可视化并不意味着普通的图形或饼图。它们是指可以包含许多数据变量的复杂图形,同时仍然可以理解和可读
篇6
[关键词]文本挖掘 文本挖掘工具 开源文本挖掘工具
[分类号]TP391
1、文本挖掘工具概述
文本挖掘隶属于数据挖掘这一交叉学科的一个具体研究领域,它的主要任务是从海量文本中发现潜在规律和趋势。文本类数据源由新闻文章、研究论文、书籍、期刊、报告、会议文献、技术档案、技术标准、产品样本、专利说明书、Web页面等半结构化或者高度非结构化的数据构成,含有较多机器所难于理解的自然语言,这使得文本挖掘工具与传统的以结构化数据为对象的数据挖掘工具有很大不同。
1.1 商业文本挖掘工具
近年来,国内外文本挖掘技术发展较快,许多技术已经进入商业化阶段。各大数据挖掘工具的提供商也都推出了自己的文本挖掘工具。这些工具除具备常规的文本挖掘功能(如数据预处理、分类、聚类和关联规则等)外,针对庞大的、非结构化数据都能做出较好的应对,支持多种文档格式,文本解析能力强大,大部分支持通用数据访问,但是价格都十分昂贵。由于每个提供商的专注领域或企业背景不同,工具的定位和适用性也有所不同。本文以目前市面上较为主流的10款商业文本挖掘工具为对象,针对其不同点进行了简要的分析比较,见表1。
1.2 开源文本挖掘工具
目前开源文本挖掘较多,但大部分工具由于其固定的算法只适用于特定的场景,应用范围较窄,与其相关的文献资料极少,故不纳入本文的比较范围。本文对10款较具普适性的主流开源工具进行了比较,见表2。
1.3 小结
大部分商业文本挖掘工具都对多语言、多格式的数据提供了良好的支持,且数据的前期处理功能都比较完善,支持结构化、半结构化和完全非结构化数据的分析处理。开源文本挖掘工具一般会有自己固有的格式要求,国外开源文本挖掘工具对中文的支持欠佳,而且大部分开源工具仍然停留在只支持结构化和半结构化数据的阶段。
商业文本挖掘工具的分类、回归、聚类和关联规则算法普遍都较开源文本挖掘工具齐全,包含了目前主流的算法,只是每个工具在算法的具体实现上存在差异。同时,前者在处理庞大的数据量时依旧能够保持较高的速度和精度,后者则显得有些望尘莫及。
目前文本挖掘还处于探索发展的阶段,其中商业文本挖掘工具的发展要快于开源文本挖掘工具。不过,任何事物都有其两面性,大部分商业软件由于其高质量和稀缺性而非常昂贵,不适合小企业和科研机构。优秀的开源文本挖掘工具则能在最大程度上满足相关需求,并且还能够支持加载使用者自己扩充的算法,或者直接嵌入到使用者自己的程序当中去。
2、典型的开源文本挖掘工具比较
笔者选取了四款具有代表性的开源文本挖掘工具,在数据格式、功能模块和用户体验三个方面进行详细分析。其中Weka以算法全面得到了许多数据挖掘工作人员的青睐,LingPipe是专门针对自然语言处理开发的工具包,LIBSVM是SVM模式识别与回归的工具包,ROST CM在各大高校应用面非常广,对中文的支持最好。具体比较情况如下:
2.1 数据格式
开源工具通常做不到像商业工具那样对各种格式的数据都提供良好的支持,而会有一定的格式限制,甚至要求自身专有的数据格式。在选择工具时,应该首先考虑数据是否符合或者经转换后能够符合工具的要求。同时,如果对工具分析的结果还要进行后续处理,也应该事先考虑到所使用的工具的输出格式是否常见或者能否转换为常见的格式,以支持后期的工作。四款开源文本挖掘工具的格式要求以及输出格式如表3所示:
可见,四款开源工具都有自己固定的格式要求,需要针对采集到的数据做格式化处理。虽然Weka支持常见的CSV格式,但是在进行后期分析时ARFF格式的文档效果更好,一般会使用其自带工具将CSV转换为ARFF。Weka不支持txl格式的文档,需要使用者用另外的工具或者自己编写代码实现格式转换。LIBSVM使用数据格式为:::…,相关帮助文档里提供了格式转换函数write41ibsvm()。Lingpipe和Rost CM都支持Text文档。
LIBSVM的数据输出格式需要专用的工具才能打开查看,难以集成到其他应用。其他三个开源工具的数据输出格式更易于扩展使用。
2.2 功能模块
功能模块是工具开发时的重中之重,但功能最全的并非就是最好的,因为全面经常会导致浅显,而不够深入、不够专业的分析结果是使用人员所不愿见到的。应该根据实际情况,针对性地选择最合适的工具来完成分析工作,这样可达到事半功倍的效果。因此,工具的功能模块是否符合自己的要求,通常直接左右着使用者的挑选意愿。笔者对四款开源的文本挖掘工具从文本预处理操作步骤、文本分类和回归、文本聚类和关联规则的各种常见算法以及能否访问数据库、模型评估和二次开发接口等方面进行了较为详细的比较。
文本预处理是文本挖掘过程中至关重要的一步,它商接影响到分类、聚类、关联规则等后期工作的效果。其中文本分词、去停用词、词频分析、文本特征提取是较为常规的操作,也是文本预处理最核心的内容。
文本分类是在经过预处理的数据上,选择分类器进行训练、评价和反馈结果的过程。本文中,笔者仅针对分类器进行比较。常见的分类算法有TF-IDF分类、Naive Bayes分类、Knn分类、决策树分类、神经网络分类和支持向量分类机(SVM)。分类器不存在优劣,每一组数据都有其适合的分类器,所以在训练分类模型时,需要尝试不同的分类器和不同的参数,以实现模型优化。
篇7
【关键词】 IP化网络文本 文本分类 文本聚类 组织框架
一、引言
随着移动运营商网络IP化改造日益深入,运营商内部积累了大量跟IP化网络相关的文本,而如果移动IP化网络文本无法快速、准确地进行分类,将会直接造成网络维护工作无章可循,进而影响到网络的安全性。现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,这种手工的方法有很多不尽如人意的地方,因此,迫切需要人们研究出相关工具以对大规模的文本信息进行有效的过滤并进行自动分类组织。
本文在基于文本分类[1] [3]、聚类算法的基础上实现了一种建立移动IP化网络文本组织框架的方法,提出了一套完备且可完善的文本组织框架:采用人工聚类与机器聚类相结合的方式得到了一套科学合理的文本组织方法;采用重复分类训练学习过程及定期重复框架聚类过程的方式实现了该套文本组织框架的动态完善;将移动IP化网络文本进行系统化管理,网管人员可随时根据需要从文本库中搜索和查询所需要的文本,获取相关知识。对文本分类聚类模型进行测试,结果显示,多聚类算法得出的第二文本框架与专家分类框架具有很大区分特征[8-11],文本分类的正确率达到了70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。系统的部署与应用,改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状,提高了网络维护的针对性、主动性和前瞻性。
二、文本分类聚类技术模型设计
2.1 现有文本处理方式存在的问题
现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式,网管人员通过查看一定数量的移动IP化网络文本的全部内容、摘要或关键字根据个人的工作经验、理解预先建立移动IP化网络文本组织框架,然后根据建立的移动IP化网络文本组织框架以及新的移动IP化网络文本中包含的相关内容,对该新文本进行手工分类归档,并通过不定期的检查和整理的方式维护分类归档的移动IP化网络文本。当需要查询IP化网络相关文本时,输入相关搜索特征词,系统从移动IP化网络文本组织框架的相应分类中查询特征词对应的文本,并输出给查询人员。
有上述可见,现有移动IP化网络文本(以下简称为文本)处理方式存在以下缺点:(1)文本组织框架缺乏科学性及一致性。现有的文本处理方式属于粗放式的文档管理方式,文本组织框架以及文档的整理分类完全取决于网管人员的专业知识水平、业务能力及工作态度,分类的方式受个人主观因素影响较大,不同的人有不同的看法,在这样的方式下,很难保证各个网管人员构建的文本组织框架采用统一客观的分类标准,缺乏科学合理性。(2)效率较低,准确率不能保证。人工归档的方式需要消耗较多的时间,尤其在文本数量较大的情况下,不能实现较高的处理效率;并且这种人工归档的分类方式还会受到一些个人因素的影响,如专业知识水平、人为判断的失误等的影响,使得分类准确率不高[2]。(3)不利于网管人员的检索、利用现有文本知识。采用现有的处理方式处理移动IP化网络文本,即网管人员按照自身已经建立的文本组织框架以及阅读文本后的理解来对文本分类,使得不同专业人员的分类方式存在偏差。由于未能采用统一客观的分类标准,从而使得相应的网管人员对该文本的搜索、查询与利用变得十分困难,致使文本知识的利用率低下,而且,检索得到的文本出现重复,也增加了检索所需的时间,浪费了系统资源。
2.2 文本分类聚类模型的设计思路
该模型的主要理论基础是文件聚类和文本分类算法,前者的基础是先把文本进行分词[4]和向量化表示[5] [6],即预处理过程,之后根据一定的聚类算法把具有相似性质的文本归为一类,以此为基础可形成文本组织框架;分类的过程则是在已有文本框架的基础上进行数据的训练过程,形成一定的分类器模型,当有新文本进来时可以自动根据文本内容进行文本分类。具体过程如图1所示。
为了改变目前IP化网络文本管理过程中的不足,本文在对文本挖掘进行较为广泛的探索与研究的基础上,结合人工分类及基于统计方法的文本聚类与文本分类方法,设计了一种面向IP化网络文本挖掘算法模型。该模型充分利用了IP化网络中专业术语较多的特点,通过总结归纳这些术语,形成分词库,抽取文本的特征词[8-11],计算文本特征向量[8-11],实现文本聚类及文本分类算法的应用。
2.3 文本分类聚类模型
对文本数据的建模和处理思路如图2所示。
(1)模型数据源
IP承载网建设与维护相关OA文、维护管理办法、建设文档等。核心网VOIP改造相关OA文、维护管理办法、建设文档等。
(2)模型大致流程
首先为保证所形成的文本组织框架的质量,需要选择精度高、适应性强的聚类算法作为聚类工具,在流程的开始阶段需要进行小样本的数据实验,对K-means[7]、模糊C、蚁群以及层次聚类算法所形成的文本框架进行比较,并结合人工分类框架进行评估,最后选出蚁群算法这种最适合IP化网络安全文本的聚类算法作为后续流程的主要聚类算法。
在选出最优的聚类算法之后开始使用该算法对全部的文本集进行聚类,形成初步的文本组织框架;该框架作为分类的先验知识进行分类的训练形成分类器,训练方法有很多,本文采用了支撑向量机(SVM [6])和KNN[7]两种方法进行训练,通过比较发现前者较优。
分类器形成之后,当有新的文本进来时,分类器会自动根据文本内容对其进行分类,并将文本归入相应的文件夹下。每周一段时间可以结合专家知识对误判率进行计算和评估,如果误判率高于临界值,就说明原来的文本框架已经不再适用于新的文本集,需要对现有的全部文本集进行重新聚类形成新的文本分类框架,这样就实现了文本组织框架的更新和完善过程。基于所形成的文本框架,网络安全维护人员可以进行方便快捷的检索和学习。
(3)模型预期效果
①可优选一种与人工分类结果较为接近的文本聚类算法,可实现大数据量文本的准确聚类;②可对新增文本进行较为准确的分类,减轻网管人员进行文本管理的压力;③可实现对文本的多为搜索,帮忙网管人员更为精确地找到所需要的文本。
三、文本分类聚类技术模型的实现
3.1 文本分类聚类技术模型实现概述
所述的数据输入模块用于采集IP化网络安全文本数据;所述的数据分析模型用于接收数据输入模块传递来的数据,并且对接收到的数据进行挖掘分析,形成四个数据分析子模块;所述的分析结果输出模块用于把数据分析模块分析的结果结合输出要求呈现给输出端;在模型中,所述的移动IP化网络文本数据包括设备指标文本、IP承载网文本、交换设备文本、全网业务文本及安全管理与网管支撑文本;所述的数据分析模块中的四个数据分析子模块分别是:专家处理子模块、多聚类算法子模块、文本分类及文本框架完善子模块和文本组织框架合成模块。具体如图3所示。
本文同时提供上述文本数据分析模型的实现方法,具体步骤如图4所示。
下面结合实例给予说明:
1.数据输入步骤:通过数据输入模块导入IP化网络文本数据,IP化网络文本数据包括集团公司、省公司、地市公司的很多发文、管理办法和不同地方网络维护案例文本及不同部门交流文本数据。
2. 数据分析步骤:
A.专家处理子模块步骤:本文的方法以IP化网络文本数据为基础,先通过专家处理子模块让专家对现有小样本的文本数据进行整理,得出IP化网络文本数据的分类框架。比如框架第一层氛围分为指标类材料、IP承载网类材料、交换设备类材料、全网业务材料、安全管理与网管支撑材料五大类,每一大类都又分为不同子类。如表1所示。
B.多聚类算法处理子模块:通过聚类算法子模块采用不同的聚类算法对小样本的IP化网络文本数据进行分析,得出不同的分类结果;比如通过k-means聚类算法、模糊c均值聚类算法、蚁群聚类算法、层次聚类算法等不同聚类方法进行聚类计算,并输出聚类结果。通过对小数据样本聚类得出的结果作为评价来选出适合IP化网络文本的聚类算法,当遇到大的数据样本时,应用已经选出的聚类算法进行挖掘。比如小样本中蚁群聚类算法结果最为贴近专家分类结果,后面的聚类方法就都采用蚁群聚类算法来进行挖掘。
C.文本组织框架合成模块:把聚类算法子模块输出的分类结果和专家分类结果比对,采用专家分类结果作为文本数据分类的框架,将小样本的专家分类结果作为指导,将和专家分类结果最相近的聚类算法的聚类结果填入专家分类结果中,实现全部文本数据的合理分类。
D.文本分类及文本框架完善子模块:新的文本进来,文本分类及文本框架完善模块会依据现有合理的文本组织通过文本分类算法对新进入的文本进行分类,专家判断错误率到达了多少,如果错误率高于阈值,就会记录为误判,把所有的数据用在阶段最优的算法重新进行聚类计算,然后通过文本组织框架合成模块合成新的文本组织框架;具体的逻辑框架图如图5所示。
3.分析结果输出步骤:在数据分析结果输出模块,用户可以根据自己的需求通过树形框架结构找到自己想要的文本,也可以通过关键词搜索,得到最相关的搜索结果。大大提高对公司现有文本资源的利用效率。
3.2 文本分类聚类技术模型的具体实现
本模型是一种建立移动IP化网络文本组织框架的方法。该方法根据预先设定的样本量建立第一文本组织框架,应用多聚类算法对所述预先设定的样本量进行聚类,选定与所述建立的第一文本组织框架最为相似的聚类算法建立的第二文本组织框架,根据所述第一文本组织框架和所述第二文本组织框架建立文本组织框架。本模型在实现过程中具体流程如图6所示。
步骤1:根据预先设定的样本量建立第一文本组织框架。本步骤中,预先设定的样本量为一定数量的IP化网络文本,本实验中,预先设定的样本量为小样本量,IP化网络领域内的专业技术人员根据已有的专业技术框架、自身的工作过程中积累的经验及对文本的理解来实现IP化网络文本组织框架的制定,比如,根据各文本的文本特征向量[8-11],建立五大类的IP化网络文本组织框架,即文本组织框架包括:指标类材料、IP承载网类材料、交换设备类材料、全网业务材料及安全管理与网管支撑材料,并计算每类对应的分类文本特征向量[8-11]。当然,实际应用中,也可以根据实际的需要,按照文本特征向量[8-11]构造其他类型的IP化网络文本组织框架,比如,将IP化网络文本按照集团公司、省公司、地市公司的发文、管理办法、不同地方网络维护案例文本及不同部门交流文本数据进行划分,构造相应类别的IP化网络文本组织框架。
在模型实现过程中,对于IP化网络文本组织框架下的每个大类,又可以分为不同的子类并设置每个子类对应的子分类文本特征向量[8-11],比如,将IP化承载网类材料分为五大子类,分别为:设备建设方案、日常维护管理办法、安全评估与巡检、省际IP承载网相关文件、网络改造与调整;交换设备类材料分为工程建设方案及管理办法、专项提升活动等子类;全网业务材料分为网络运行维护实施、应急处理与重大故障等子类;安全管理与网管支撑材料分为账号与口令安全管理办法、其他安全管理办法及文件等子类。请参见表2所示的IP化网络文本组织框架示例。
本步骤中,由于专业技术人员具有良好的专业技术水平及丰富的经验,对文本的理解较为全面、准确,使得对文本进行分类的准确性高,描述各个分类的文本特征向量[8-11]恰当、准确性高。从而使得建立的文本组织框架科学性强、可信度高,可作为优选聚类算法的主要依据;同时,由于预先设定的样本数量不会太多,分类、归档所需的时间较少,属于在人工可处理的范围内。
步骤2:应用多聚类算法对预先设定的样本量进行聚类,选定与所述建立的第一文本组织框架最为相似的聚类算法作为优选聚类算法。
该优选聚类算法将在第一文本组织框架已无法进行准确分类的情况下,启动计算,得出第二文本组织框架,用于文本分类。
本步骤中,多聚类算法(文本挖掘算法)包括:k-means[7]聚类算法(k-means Clustering Algorithm)、模糊c均值聚类算法(Fuzzy C-means Clustering Algorithm)、蚁群聚类算法(Ant Colony Optimization Algorithm)、层次聚类算法(Hierarchical Clustering Algorithm)等。各算法及对文本的聚类流程属于现有技术,其详细描述请参见相关技术文献,在此不再累赘。
实际应用中,由于不同的聚类算法对相同数量的样本进行聚类时,其聚类结果可能存在较大的差别,且各聚类算法的聚类结果真实可靠性也无从评估,因而,采用不同的聚类算法将对聚类结果产生实质性的影响。本示例中,通过选用不同的聚类算法对预先设定的相同数量的样本进行聚类,对聚类结果(文本组织框架)与第一步中建立的IP化网络文本组织框架进行比较,选取与人工分类结果的相近程度最好的聚类算法结果对应的聚类算法,作为优选聚类算法。
步骤3:以第一为文本组织框架作为文本分类依据。本步骤中,在得到第一文本组织框架及优选的聚类算法的基础。
步骤4:根据所述文本组织框架,对新文本进行分类。本步骤中,导入IP化网络文本数据后,按照每个样本包含的内容,抽取文本中的关键词,构造各文本的文本特征向量[8-11],以文本组织框架为依据,将新文本的文本特征值与文本组织框架中各类包含的文本特征值进行匹配,将该新文本分类至文本组织框架中相应的类别中。
被分类的样本经过预处理,抽取文本中的特征词[8-11],获取各文本的文本特征向量,与文本组织框架中各子类包含的文本特征向量进行匹配,将各文本分类到文本组织框架中相应的子类;于此同时,抽取新增的部分文本进行人工分类,比较人工分类与自动分类的误差,当误差超过阈值时,启动已选出的优选聚类算法建立的第二文本组织将文本分类,比如,上述示例第二步中,假设蚁群聚类算法对预先设定的样本的算法结果(第二文本组织框架)最为贴近建立的第一文本框架。当误差超过阈值时,重新启动蚁群聚类算法计算第二文本组织框架。
本模型实现过程中,还可以利用文本分类结果,对所建立的文本组织框架进行调整,参见步骤5。
步骤5:从新的文本中,选取一定数量的文本,根据第一文本组织框架进行人工分类;本步骤中,选取的这一定数量的文本,在步骤4中已进行了自动分类,将自动分类结果与人工分类结果进行比较。
步骤6:将自动分类结果与人工分类结果进行比较,如果自动分类结果误差大于预先设定的阈值,启动优选聚类算法,计算新文本组织框架,作为第二文本组织框架,代替第一文本组织框架。本步骤中,预先设定的阈值可以是自动分类结果与人工分类结果中包含的相异的文本个数与人工分类结果包含的文本个数之比。如果没有超出该阈值,表明当前建立的文本组织框架运行良好,可靠性高;如果超出该阈值,需要按照人工分类结果调整文本组织框架中各大类相应子类对应的文本特征向量[8-11],或者重新应用前述优选的聚类算法对所有文本(新旧文本)进行聚类,得到新的文本组织框架,用该新的文本组织框架代替原有的文本组织框架,当自动分类结果误差大于预先设定的阈值时,重新启动优选的聚类算法进行聚类得到新的文本组织框架。
实际应用中,上述对所建立的文本组织框架进行调整,主要是在利用第一文本组织框架对新文本分类时,由于建立的第一文本组织框架是基于有限的样本量,因而,在大样本量的情况下,可能存在一定的分类误差,而且随着样本量的不断增大,其误差可能也越来越大,因而,通过人工评估,当误差超出预先设定的阈值时,可以用前述的优选文本聚类算法结合人工评估结果重新生成文本组织框架,以替换该第一文本组织框架。
当然,在建立文本组织框架后,网管人员就可以利用该文本组织框架进行搜索和查询,获取所需的文本,例如,网管人员可以输入搜索特征词,文本组织框架查询关键词对应的文本特征值[8-11],将该文本特征值所属的搜索结果(文本概述等信息以及文本所属的大类及子类)输出给网管人员,这样,与传统的关键词的搜索方式不同,由于可根据文本特征值进行搜索,搜索情况更接近文本的内容,每个文本可供搜索的内容更多,使用文本搜索更贴近文本内容。
四、测试与分析
通过模块层次图和数据流图的进一步设计,基于VC编程环境,本研究将设计的模型进一步在机器上实现,开发出IP化文本分类组织框架和基于文本内容的搜索。测试结果表明多聚类算法得出的第二文本组织框架与专家分类框架具有很大区分特征[8-11],文本分类的正确率达到了70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。
4.1 测试系统
对于中国运营商来说,3G的日益临近,网络IP化成为一种不可逆转的趋势。通过对现有网络进行IP化的改造来实现多网融合最终完成3G网络的建设已经成为国内外各大运营商的共识,IP化网络在核心网的比重越来越大。目前,对计算机IP网络的评估已经有一些研究成果及应用系统。但是,针对运营商中IP化网络具体特点,建立科学、可行的安全评估模型但成了摆在中国运营商面前的一个重要的问题,同时也是在地市公司在从事具体维护工作中不得不去思考的一个问题。
目前,对于IP网络的评估方法一般需要一些先验知识,如威胁出现的概率、无形资产赋值等,而准备获得这些数据是存在困难的,为此,已有的模糊、神经网络等方法建立的安全估计模型只能对于局部系统进行评价,且多局限的理论的说明,未能有一些全面的,可行的安全评估模型及可投入使用的评估系统的产生。因此,本产品希望从移动运营商IP化网络的运营实际出发,从技术、管理、安全意识等更加宏观的层面来审视安全评估问题,并依托省网管已经建立的“网络运营支撑平台”,建立基于粗糙集的IP化网络安全评估系统。
对于地市公司公司来说,随着公司网络集中化建设的进行,地市公司对IP网络的维护权限多停留在设备的维护方面,维护行为也多以被动实施为主,往往缺乏对自身网络安全性的科学及客观的把握。为此,该系统所采用的模型也从地市公司IP化网络的具体建设及维护实践出发,采用粗糙集的理论来建立网络的安全模型、采用粗糙集理论来分析网络各项安全因素的轻重关系,输出决策规则,建立IP网络下客户感知及网络质量的共同提升模型,从而建立起一套科学完善的IP网络评估算法,从而为地市公司从事IP化网络的建设和维护提供指导,变被动为主动,全面提升IP化网络建设与维护的有效性。
本文设计的文本挖掘模块作为该系统中重要的一个组成部分,对于IP化安全文的深入挖掘,实现IP化网络的安全保障起着重要的作用。对于粗糙集实现网络安全评估方面因为不是论文的主要内容。因此不作主要描述。本文重点描述了一种面向IP化网络文本挖掘模型在系统中的具体实现。
文本模块从文本导入、文本框架导入、聚类方法选择、文本聚类、文本分类、文本搜索和浏览等方面把模型中的主要功能分别在不同模块中实施。其中聚类方法选择模块中集成了K-means聚类算法、模糊C聚类算法、分层聚类算法和蚁群聚类算法,是模块中的核心部分。系统的模块层次如图7所示。
在系统的模型层次图的基础上,进一步设计研究了系统的数据流图,从数据输入层、数据预处理层、核心算法层、用户使用层等层面围绕文本组织框架为核心全面铺开。找出系统输入、处理、输出过程中的关键数据存储和逻辑处理,理清了内部逻辑的相互关系。系统的数据流图如图8所示。
4.2 系统相关模块的功能说明
在系统实现过程中,主要实现了如下几个模块:IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块,各模型具体功能如下:(1) IP化网络安全文本数据导入模块:用于导入IP化网络安全文本数据,分别输出至第一文本组织框架处理模块和多聚类算法模块;(2) 第一文本组织框架处理模块:用于对接收的文本进行分类整理,建立第一移动IP化网络文本组织框架,并将建立的第一移动IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块;(3)多聚类算法模块:用于根据预先设置的多聚类算法对接收的文本进行聚类,向聚类结果匹配模块输出聚类结果;(4) 聚类结果匹配模块:用于根据接收的第一移动IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果,将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块;(5) 文本组织框架生成模块:用于根据接收的第一移动IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。
IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块等5模块具体逻辑关系如图9所示。
在实现过程中,该模块可以进一步包括如下可扩展模块:(1)文本分类模块,用于依据文本组织框架生成模块中存储的文本组织框架信息,对来自IP化网络文本数据导入模块的文本进行自动分类。(2)文本组织框架调整模块,用于接收来自文本分类模块的自动分类结果、以及来自第一文本组织框架处理模块对同批量文本的人工分类结果并进行比较,如果自动分类结果误差大于预先设定的阈值,按照人工分类结果调整文本组织框架生成模块存储的文本组织框架信息。(3)搜索和查询模块,用于接收来自外部的搜索关键词,发送至文本组织框架生成模块,将文本组织框架生成模块根据存储的文本组织框架信息查询得到的关键词对应的文本信息进行输出。
系统中各模块相互协同共同完成模型所要求的功能,流程如下:(1)IP化网络文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块,其中,IP化网络文本数据导入模块,用于导入IP化网络文本数据,分别输出至第一文本组织框架处理模块和多聚类算法模块;(2)第一文本组织框架处理模块,主要有领域专家来完成,领域专家通过人工的方式来获取接收的文本信息中包含的关键词,根据关键词构造各文本的文本特征向量[8-11],利用文本特征向量对所述预先设定的样本量的IP化网络文本进行分类整理,建立第一IP化网络文本组织框架,并将建立的第一IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块;(3)多聚类算法处理模块,用于根据预先设置的多聚类算法对接收的文本进行聚类,向聚类结果匹配模块输出聚类结果;聚类结果匹配模块,用于根据接收的第一IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果,将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块;(4)文本组织框架生成模块,用于根据接收的第一IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。
4.3 系统相关模块的功能说明
通过移动公司的IP化网络文本测试了本研究设计的功能模块,测试结果显示文本框架与专家分类框架具有很大区分特征,文本分类的正确率达到70%以上,基于内容的索引搜索效率很高,提高了文本管理人员查找文本的效率。
4.3.1 文本聚类测试结果分析
该部分通过文本聚类实现文本框架的形成。系统提供四种聚类方法的实现:K-means[7]、模糊C聚类、层次聚类、蚁群聚类算法;每种聚类之后,都将在下方的显示框中展示聚类的结果,也即文本组织框架。之后通过比较不同聚类的聚类结果,选出最优的聚类算法。
K-means[7]聚类算法可以调整三个参数:聚类数目、最大迭代次数、文档向量维数。现有文本专家聚类分为3类:IP承载网、全网业务、安全管理与网管支撑。
模糊C均值聚类算法可以调整五个参数:聚类数目、误差限、参数m、最大迭代次数、文档向量维数。其中参数m的调整范围为1.5~2.5。如图10所示。
其中K-means[7]聚类算法将文本通过迭代1000次,采用100个特征词提取出文档向量,分出第一类的文本数量为67,第二类的文本数量为2,第三类文本数量为1。如图11所示。
4.3.2 文本分类测试结果分析
该部分暂时无需选择路径,仅采用样本数据实现,因为专家分类文档没有经过聚类算法,提取不出特征值,无法作为分类;此环节耗时较长,可能需2-3分钟,各机器性能不一可能略有差别。
本部分工作的基础是使用上一步骤选取最优的聚类算法对所有文本进行聚类形成合理的文本组织框架并训练形成分类器。分类器形成后,就可以对新进入的文本进行分类,一般分类正确率在70%以上。
图12展示了对实验数据进行分类的结果,对34个文本进行分类,分类正确率达到80%。证明该文本框架所形成的分类器具有较好的分类能力。图中标红的文本本分到了错误的类别中了,其余是被正确分类的文本;分完后可以查看通过上面的选择查看单个文本分类情况,如图13。
4.3.3 文本搜索测试结果分析
本部分是基于前述文本组织框架的文本搜索模块,目前系统可供使用的检索词包括发文单位(集团、省公司、使公司)、文本类别(通知、申请、报告、自查报告、紧急通知等)、文件名(输入要找的关键词,系统将使用该关键词在所有文本的文件名中进行检索)、发文时间等。系统正在实现的功能是基于特征词的检索,在文本分词阶段每一个文本都被分成若干特征词所表示的向量,输入特征词就可以实现基于内容的检索,大大提高了检索的效率和准确度。
其中基于内容的特征词的搜索是一个创新,通过文本训练,提取出所有搜索范围内的文本的特征词,通过特征词的频率来确定不同文本的区别,如100维特征词的训练结果就将不同文本通过挑选出来的100个文本特征词的频率来表示,实现文本的向量化,如果某一特征词在文本中没有出现,则向量这个点上的取值为0。训练后的文本集就形成了一张二维表,一个维度是文本,一个维度是特征词,这个二维表是基于文本内容训练出来的,通过此二维表的特征词来搜索文本比其他几个维度效率更好,效果更好。
如图14所示,搜索范围选择IP化安全管理系统文件夹中的clusters文件夹(因为要基于特征词搜索需要有能提供特征词的文件夹)。
查询得到的文本可直接在检索结果栏中打开阅读。如图15所示。
篇8
关键词:越南语;语料库;分词软件
中图分类号:TP391.1
包括越南国家本身,世界上约有九千万人讲越南语;按世界母语使用人数排行,越南语列第十六位,显然,越南语已经不是真正意义上的小语种,而是一门重要的语言。尽管越南语的语系归属尚未确定,有语言学者认为越南语是一种孤立语言;较多的学者则认为越南语属于南亚语系的孟-高棉语族,但无容置疑的是越南语与印欧语言密切相关。在书写形式上,现代越南语采用的是扩展的拉丁符号;在组成上,越南语单音节词居多;在形态上,语法意义是通过语法词等词来实现。以上特点使得越南语与西方语言与东方语言既有相似之处,又有区别。实际上,一般认为,在越南语中,词汇是由"ti?ng"(字)构成。目前,越南语共有字八千左右。有的字本身就是一个词,有的由二个字构成,有的由三个字构成,甚至有的由四、五个字构成。因此越南语的词汇构成比较复杂,具体来讲就是复合词多,但由于在书写上字与字之间有空格(有的字本身就是词,也就是词与词之间有空格),这与英语等西方语言相似,而英语等书写时空格是词的天然分隔界线;越南语则需要判断词的构成。其实,汉语由汉字组成,有的汉字本身就是一个词,有的则不是,是由两个或两个以上的汉字构成。在这一点上,越南语与汉语呈现出较强的相似性。在自然语言处理、语言研究等领域,词汇划界是第一步,也是最关键的一步。在分词的实践过程中,少量的语料可通过人工来完成,但大批量的语料通过人工来做显然不可能。因此开发计算机程序来进行自动分词并进行自动词性标注成为趋势。以汉语为例,现在比较成熟的分词软件比较多,典型的有中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS,该系统分词正确率高达97.58%,已被日本、新加坡、韩国、美国以及其他国家和地区的人员使用。(见刘克强,2009);此外,教育部语言文字应用研究所计算语言学研究室研制的CorpusWordParser也被广大用户使用。越南语分词与标注软件发展相对缓慢,但近几年来也有相当不错的几件产品问世,促进了越南语自然语言处理及越南语研究的发展。下面首先回顾下分词软件的发展与历史,然后介绍越南语分词软件,最后说明分词后的语料的作用。
1 分词软件的类型及特点
分词软件顾名思义一般是指给文本进行分词并标注词类的计算机程序。分词软件的研制始于英语语料。自从世界上第一个电子语料库Brown语料库于1964年问世,学者们经过十年左右的努力,终于推出了第一个词性标注版的Brown语料库。可以说,Brown语料库无论是在语料库建设方面还是在计算机自动词性标注方面都是开拓性的。Brown语料库的标注程序名为TAGGIT,是基于英语语言规则设计的,该程序工作分两个阶段:第一阶段先给每个词指定一个或几个初始词性,如“like”给出介词、动词、名词、形容词、连词及副词共六种初始词性;第二阶段运用“上下文框架规则”进行词性排歧,尽可能地获得唯一的词性。程序使用的上下文框架规则多达3300条,标注的准确率为77%(Greene&Rubin,1971),该系统采用86种词性标记。尽管现在看来准确率较低,但当时已为词性自动标注的一大突破,此后问世的其它类型的标注软件很多是在标注后的Brown语料库训练基础上研制的。
根据程序所使用的原理,可将软件分成三类:基于语法规则;基于概率;基于神经网络/基于转换(模板)。上述的TAGGIT是典型的基于语法规则的词性标注系统,应该说对于特定的语料,使用限于一定的范围内,基于规则的错误率较低,但由于语言规则的不可穷尽性和语言的复杂性,特殊是语料容量庞大时,这种方法的局限性就明显出来,准确率会大打折扣。
基于概率的方法,就是利用统计的方法,通过概率确定词的具体词性。LOB语料库首先采用此方法。在英国兰卡斯特(Lancaster)大学由著名语言学家Leech的领导下,研究小组根据LOB语料库提供的133×133个标注过渡矩阵研制了CLAWS(the Constituent Likelihood Automatic Word-tagging System)程序,使用133种词性标记,标注准确率达96-97%。此后不断改进,目前推出CLAWS 4.0版,词性标记多达170个。基于概率的方法是准确率高,能处理“不规范”的表达,但由于使用的矩阵概率的方法,缺少语言学信息,不能处理相距较远的附码。
基于神经网络/基于转换(模板)的方法,目前介绍较少,因此往往将基于转换的方法称为词性标注的第三种方法。该方法也使用概率统计原则,但与概率方法不同的是,在词类最可能的概率获得后,编制一套转换规则的模板,用这模板重新标注语料,再次产生新的规则,如此周而复始,直到没有新的规则。此方法总体正确率高,效率也高,但缺点是如果标注语料与训练语料语域类型不同时,则准确率明显下降,呈现不稳定性。
2 越南语词性标注软件
越南语的词性标注软件发展相对滞后,据可获得的文献,这些软件基本都是在本世纪初近更近的时间研制的,目前可以下载共享的有VLSP(Vietnamese Language and Speech Processing),即越南越南语语言及言语处理项目组成员开发的系列软件,其中包括分词软件,如VietTagger,JVnTagger及JVnTextPro。其中,后者两者为前者的升级版,目前版本分别为JVnTagger 1.0.0,JVnTextPro 2.0;另一个就是越南河内国家大学Lê H?ng Ph??ng博士开发的越南语文本处理工具包vnToolkit 3.0,其中含括分词软件vnTokenizer、词性标注软件vnTagger以及分句软件vnSentDetector。据Lê H?ng Ph??ng个人主页介绍,vnTokenizer 的准确率和召回率介于96%―98%之间,而vnTagger的准确率达到96%左右,目前vnTagger的最新版本为4.2.0。
软件VietTagger,JVnTagger及JVnTextPro依据最大熵原理和条件随机场开发,属于概率型分词软件,软件按输入文本、断句、切句、分词、标注及输出六个步骤进行,用户可在此基础上进行二次开发;vnTagger可在Unix/Linux和Windows操作系统下运行。下表以JVnTagge 1.0.0和vnTagger 4.2.0版本为例,列出两款软件的特点:
表1 JVnTagge 1.0.0和vnTagger4.2..0特点
开发者 准确率 语言 赋码集 处理对象 输出格式
JVnTagger 1.0.0 Phan Xu?n Hi?u 93% Java 17 文件夹 txt
vnTagger 4.2.0 Lê H?ng Ph??ng 96% Java 17 单文本 Txt,xml
从上表可发现,JVnTagge 1.0.0的最大特点是可进行批量标注,效率高;vnTagger 4.2.0的优势在于准确率高,而且输出文件格式除.txt文件外,还可以生成.xml文件,便于文件及数据间的传输。
3 分词标注文本的应用
Leech(2005)认为语料进行词性标注后就成为“增值”了的文本,也就是说相对于原始文本,其利用价值会更高。一般语料库检索软件都可以实现词表功能、描述搭配功能等。
经过词性标注后的文本,任何一词的词性十分清楚。下图是笔者建立的一个微型越南语语料库,该库经vnTagger 4.2.0进行标注,利用AntConc的词表功能的一个截图。
图1
从上图可发现“nh?t”一词有三种词性,分别标注为nh?t/a,nh?t/m及nh?t/r。其中前者为形容词、中间为数词,后者为副词。这此语料库中形容词及副词的频率分别为24及时10,而数词仅出现一词。此外,nh?n_m?nh/V表示字nh?n与m?nh组成词nh?n m?nh,这个复合词为动词,中间符号“_”将两个字合二为一,这就是分词的结果。如果不进行词性标注,不但这三种词性区分不清楚,而且由于此词与其它词组成的复合词也未能区分,造成混乱,不利于越南语言研究和学习。
词的搭配是语言研究和语言教学中的重点内容。尤其是对越南语这种复合词占多数的语言来说,分词后才能对词的搭配进行较为准确的研究。值得注意的是,由于该语料库主要收集的是有关电脑及网络方面的语篇,上述的结果中有很多名词与电脑及网络有关。此外,分词在自然语言处理中对句法标注也起关键的作用,句法标注的基础是词性标注。这里从略。
4 结束语
上面分别介绍了越南语的一些特点,针对越南语单词的界线不明确,需要进行分词才能划出词的界线,将语料中的单词清晰地给出。越南语的分词软件JVnTagger及vnTagger是常见的两款免费共享软件,功能相对强大,分别有各自己的特点,可满足不同用户的需要。最后说明了分词后的文本的应用,强调分词词表及搭配词表的意义,对越南语的研究及教学必将产生有益的作用。
参考文献:
[1]Greene B.B.,Rubin G.M..Automatic grammatical tagging of English,Department of Linguistics.Brown University,Providence,RI,USA,1971.
[2]Leech,G.‘Adding Linguistic Annotation’,in M.Wynne,Developing Linguistic Corpora:a Guide to Good Practice.Oxford:Oxbrow Books,2005:17-29.
[3]Quan Vu,Trung Pham,Ha Nguyen."Toward a Multi-Objective Corpus for Vietnamese Language",PROC.COCOSDA2003,Singapore,2003.
[4]刘克强.2009共享版ICTCLAS的分析与使用[J].科教文汇(上旬刊),2009(08).
[5]王建新.计算机语料库的建设与应用[M].北京:清华大学出版社,2005.
作者简介:刘克强(1971.06-),男,陕西西安人,教授,硕士,研究方向:语料库语言学及文学。
篇9
[关键词]互联网 军事舆情 信息技术 舆情分析
[分类号]G250
1
引言
在军事情报搜集和处理中,公开情报资料搜集是一个很重要的方面。美国中央情报局80%的情报来源于公开材料,德国新闻情报局每天将搜集和处理后的公开情报资料汇总成《每日新闻简报》呈送,以色列情报机关公开承认其所获情报65%来自报刊、广播、电视和学术研究论文等公开渠道,其他许多国家也设立了专门的公开情报搜集机构。网络舆情作为一种新形式的公开情报资料,由于其开放性、及时性以及便捷性等特点,越来越受到情报工作者的重视,甚至很多情报工作者纷纷将网络舆情作为其公开情报资料搜集的第一来源。
军事网络舆情主要是指国内外互联网络媒体中关于军事事件的评论和观点。军事网络舆情作为一种特殊的网络舆情,除了网络舆情所拥有的特点外,还有其自身特殊性。评论和观点往往都集中在一些敏感和焦点问题上,例如中国军费问题、中国军事威胁等。在进行舆情分析与监控时,军事网络舆情将会是最为重要的部分。同时,由于国外一些媒体往往对其民众进行错误引导,军事网络舆情中的许多看法可能偏向负面,在进行分析和监控时就必须注重对这一部分舆情的判别,这对于做好军事情报分析工作至关重要。本文以开发军事网络舆情分析系统MNPOS(NetworkPublic Opinion System in Militaty)为背景,在分析国内主要舆情系统基础上,研究舆情采集、舆情处理和舆情服务的系统架构及其关键技术的实现方法。
2 网络舆情系统比较及军事网络舆情系统特点
2.1
国内舆情系统的主要功能与应用
网络舆情系统中的关键技术,一方面与信息分析的具体功能和解决方案密切相关;另一方面又随网络舆情内容、范围和传播应用不断推陈出新。这些技术包括各种信息采集、特征抽取、数据挖掘、文本分析、自动分类、自动聚类、自动摘要、智能检索等技术。当前的新形态信息交互模式有网络新闻、论坛、博客、维基等,其信息采集技术从早期的静态页面信息获取发展到动态数据库数据获取,从传统的网络蜘蛛发展到可自主调整的高效搜索,从字符串匹配的检索实现发展到知识环境下的智能检索;相应的信息运用多元统计等方法进行分析,其基础聚类分析方法有概念语义空间与相似度、基于支持向量机与无监督聚类相结合的网页分类等;技术上采用决策树、神经网络、朴素贝叶斯、组合分类器、遗传算法、粗糙集、最近邻技术等多种分类方法。
国内一些较典型的网络舆情系统概述分析如下:
・谷尼国际Eoonie互联网舆情监控系统。该系统通过对互联网海量信息自动获取、自动聚类、主题检测和专题聚焦,实现用户的网络舆情监测和新闻专题追踪,形成简报、分析报告等结果。运用内容抽取识别、相似性去重等技术获取网络中的热点和敏感话题,根据统计等策略分析不同时间内的主题关注程度和预测发展趋势。该系统在国内的用户有待进一步增加。
・中科点击军犬网络舆情监控系统。它使用强大的采集软件对数千网站进行监控,自动获取舆情信息的热度,并生成报表;同时可获取热点主题的浏览量、回复数,并跟踪发帖人,对舆情信息进行管理、标注和分类,并根据重要性对舆情信息进一步筛选和过滤。其采集性能比较好,但分析处理功能有待进一步提高。
・北京拓尔思TRS网络舆情监控系统。该系统采用多种技术,实现对舆情信息的精准和全面采集,同时综合运用大规模文本智能挖掘技术,实现对海量舆情信息的准确、高效分析和管理。其舆情功能从用户角度来看较为全面。
・北大方正智思网络舆情监控分析系统。该系统褴合互联网搜索及信息智能处理等技术,通过对网络信息自动抓取、自动分类聚类、主题检测、专题聚焦等方法,实现网络舆情监控和新闻专题追踪等功能。其开发比较早,应用也较多,但相关的更新功能相对较少。
2.2
军事网络舆情系统的特点和相关研究
相比较当前市场上通用的网络舆情分析系统,军事网络舆情系统MNPOS对军事类突发事件的网络舆情相关研究更为关注,快速的专题聚焦、敏点发现追踪和倾向分析规则都具有新的特点。而目前的网络舆情分析还没有一个完整的解决模型,研究主要是获取网络舆情话题的一般信息和主题信息,注重获取舆情话题的主题内容,例如作者、发表时间、话题类型等,缺乏对话题评论焦点、情感倾向、事件关系等深层舆情信息的发现,忽视从事军事的群体对话题的情感、事件关系及变化趋势的分析。
传统研究方法没有对大规模军事网络数据进行分析,使得网络舆情系统无法适应网络环境下海量军事数据的特点;只利用简单的统计方法给出话题变化趋势直接作为预警信息,缺少基于知识的推理。存军事领域,网络舆情系统不提供完整的军事类突发事件网络舆情传播理论,大都以管理者需求为牵引而采用具体针对性的技术进行解决,造成技术整体上不具有连续性和系统性,很难形成一套完整的军事网络舆情解决方案,势必影响到军事网络舆情应对策略和方法的实用性、先进性和可靠性。因此,无论是社会科学领域还是工程技术领域,对军事网络舆情的基础理论研究都处于起步阶段,大多数研究成果属于方法上的研究范畴,军事网络舆情的监测与预警工作不够全面和系统化,军事网络舆情的应对策略还不够科学和规范。
3
军事网络舆情系统MNPoS功能及其体系架构
在MNPOS军事网络舆情分析系统中,运用军事知识语料对网络信息采集与提取,提高网络舆情监测分析的智能化程度,解决网页的灵活性和复杂性、内容的动态性和多态性、信息的庞杂性和不完整性所给系统提取军事网络舆情信息带来的困难;运用军事类话题发现与跟踪技术识别出给定时间段内上网媒体的热门话题,分析热门军事话题在不同时段内媒体所关注的程度,对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势,对涉及内容安全的敏感话题及时发现并报告,为网络舆论引导提供支持;运用军事知识倾向性分析技术挖掘出网络文本内容蕴含的深层军事观点、态度等信息,对媒体言论倾向进行符合军情的分析;运用多文档自动文摘技术对军事网络论坛等信息进行提炼概要。
本系统采用模块化的软件设计方法,共分为网络舆情采集、网络舆情处理和网络舆情服务三个功能层面,系统体系架构见图1。
3.1
网络舆情采集
网络舆情采集主要是利用网络蜘蛛的原理进行网
页采集,按照预先设定好的军事主题和网址埘网络上的军事数据进行定点、定主题的抓取,例如新闻、论坛、博客等主题网站。最后将抓取的结果以XML文件格式保存在本地。网络舆情采集是舆情分析处理和提供舆情服务的基础,只有高质量和高效率的网络舆情采集才能保证数据的可靠性和及时性。
3.2 网络舆情处理
网络舆情处理是整个系统的核心,它对所有采集到的数据进行相关处理,主要由网页智能抽取、关键词自动提取、主题自动分类、舆情倾向性分析和敏点舆情标注等组成。首先,基于军事主题和分类知识将采集模块抓取到的XML文件中的主题、内容、作者、时间、来源等存入网络舆情信息库,通过关键词自动提取和主题自动分类将每条记录的关键词和主题分析出来,进行倾向性分析和敏点舆情标注,最后生成自动文摘。另外,在主题分类过程中,若文档不属于任何预设军事主题则进行主题自动聚类处理,自动分析出新的军事主题。
3.3 网络舆情服务
分析结果进入网络舆情服务,并最终展示,包括舆情报告的生成、热点和敏点军事主题的列表显示、统计图表等,供舆情部门的工作人员和决策部门的领导随时进行军事舆情的监控。
MNPOS系统在设计和实现过程中遵循软件工程原则,使用,NET Framework作为基础类库,在此基础上综合运用VB和c#以及ASP技术进行开发,保证技术上的先进。另外,为保证系统的可靠性和可扩展性,采取数据层、事务层和表现层分离的模块化设计原则,分为舆情采集、舆情处理和舆情服务子系统分别进行实现。
4 MNPOS系统中军事舆情分析关键技术研究
MNPOS军事网络舆情分析是系统核心模块,其质量和效率直接影响到整个系统。
4.1
MNPOS军事主题信息采集
MNPOS主题信息采集由下载器从互联网上读取军事网页并保存到本地,分析器运用军事语料和相关正则表达式提取其中所有超链压人一个URL队列,之后从该队列中顺序读取URL并下载,该过程循环进行直至将指定网站的网页抓取完毕。程序关键在于多线程管理和链接地址的分析,目前C#提供了良好的多线程管理机制和对正则表达式的支持,为开发多线程程序提供了极大的方便。
MNPOS军事网页信息抽取,首先选择相应的抽取规则进行智能抽取,将相应的内容抽取出后进行数据清洗,去除重复记录和信息,合并相同标题不同内容的信息,最后将清洗后的数据存人军事舆情数据库。该处理过程包含在包装器中,对于用户来说是透明的。另外,在规则生成部分采用军事专家模式,即对网页的结构进行分析,然后手工进行规则的提取,因此,所生成的规则比较精确,对于相应军事网页的抽取质量和精确度较高。
4.2 MNPOS军事舆情分类和倾向分析
将处理后的信息分入预先设置好的军事分类,对于网络舆情服务具有至关重要的作用。分类模块主要采用KNN和SVM分类法,其中的特征选择结合了信息增益、互信息和a2统计等方法和军事主题分类概念库,采用目前分类质量较高的一些开源程序进行改造,将其集成到系统中保证分类质量。
MNPOS军事舆情文本分类分为两个过程:①训练过程,决定分类机的质量。首先由军事专家完成训练集的挑选,然后在预处理过程中进行参数选择、训练后进行参数调整等。②根据训练过程所生成的分类机进行分类,其中最重要的是预处理和分类进程,预处理是对待分类文本进行数据清洗和特征表示的过程,本系统的训练和分类进程采用SVMCLS 2.0开源程序。
舆情倾向性分析是根据舆情内容判断该舆情是正面还是负面的一个过程。常用的方法有基于机器学习和基于语义理解等,目前MNPOS系统采用基于机器学习的方法。系统中设计有六个类别(美国对售、中国反导试验、中美军事关系、中印关系、中国航天发展、中国武器装备),以其中的“中美军事关系”举例,可以将该类的文本根据其内容分为正面和负面两类,然后再训练出两个分类器:“中美军事关系正面”和“中美军事关系负面”,六个类别即可生成12个分类器,然后对这些待分类文本进行分类,并且在数据库相应字段内用1和0来分别标注正面和负面信息。这种方法实现起来较为简单,而且准确率较高,不足是在构建训练集时需要大量军事专家进行手工编制,实现中充分利用军事信息管理学科的优势和成果来构建倾向性分类训练集。
4.3 MNPOS军事敏点舆情标注
篇10
【关键词】声纹识别;小波滤波器组;基音周期;Mel倒谱系数;高斯混合模型
1.引言
说话人声纹识别可以看作是语音识别的一种。它和语音识别一样,都是通过对所收到的语音信号进行处理,提取相应的特征或建立相应的模型,然后据此作出判断。而区别在于它并不注意语言信号中的语义内容,而是希望从语音信号中提取出人的特征。从这点上说,说话人声纹识别是企求挖掘出包含在语音信号中的个性因数,而语音识别是企求从不同人的词语信号中寻找相同因素。在处理方法上,说话人声纹识别力图强调不同人之间的差别,而语音识别则力图对不同人说话的差别加以归一化。世界范围内,声纹识别技术正广泛应用于诸多领域。截止到去年年初,声纹识别产品的市场占有率为15.8%,仅次于指纹识别和掌形识别。
现有文献中用于说话人识别的特征许多是建立在短时频谱基础上。它们主要有Mel频率倒谱系数(MFCC),LPC倒谱系数,差值倒谱等。在声纹识别技术中,目前研究最多的方法有:模板匹配法、概率模型法和人工神经网络法。Soong等人将矢量量化技术用于与文本无关的说话人是被系统。Rosenberg等人利用子词单元构成的隐马尔科夫模型(HMM),建立了一个说话人确认系统。Delesby等人利用径向基函数神经网络方法进行说话人识别[1]。我国的北京大学以迟惠生为领导的说话人识别研究团体、清华大学以杨行峻为领导的研究团体以及中国科学院声学所和东南大学也在这个方面取得了非常优秀的科研成果.从国内外文献看来,有的着重距离测度,但是大多数向几种方法如HMM、GMM和ANN混合的方向发展。
2.声纹识别的基本原理及相关算法
2.1 基本原理
声纹识别的基本原理如图1所示,主要包括两个阶段,即训练和识别阶段。
训练阶段,系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参数。识别阶段,由待识人说的语音经特征提取后与系统训练时产生的模板或模型参数进行比较。在主说话人的辨认中,取与测试音匹配距离最小的说话人模型所对应的说话人作为识别结果;在说话人确认中,则通过判断测试音与所声称的说话人的模型的匹配距离是否小于一定闭值做出判断。
2.2 语音信号的预处理
在语音信号特征提取之前,首先要进行的一个环节就是对输入语音信号的预处理,主要包括预滤波、预加重、加窗分帧以及语音端点检测等过程。本文就以涉及到的预滤波进行描述,预滤波在本文中是通过小波滤波器组来实现。预滤波器必须是一个带通滤波器,其上、下截止频率分别是和。对于绝大多数语音处理中,,,采样率为。
2.3 声纹特征提取
2.3.1 概述
提取说话人特征就是把原来语音中的冗余信息去掉,找到我们关注的语音特征信息,是一个减小数据量的过程。从说话人语音信号中提取的特征参数应满足以下准则:对外部条件具有鲁棒性(如:说话人的健康状况和情绪,方言和别人模仿等);能够长期地保持稳定;易于从语音信号中进行提取;与其他特征不相关。
2.3.2 典型声纹特征参数提取算法
声纹特征参数主要有以下几种:基音周期、短时过零率、线性预测(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)、以及经过噪声谱减或者信道谱减的去噪倒谱系数等,每一种特征参数都有其相应的提取算法。在声纹特征提取这一点,本文将采用基音周期和Mel频率倒谱混合的参数作为特征参数。
2.3.2.1 线性预测(LPC)方法
语音线性预测的基本思想是:利用过去的样值对新样值进行预测,然后将样值的实际值与其预测值相减得到一个误差信号,显然误差信号的动态范围远小于原始语音信号的动态范围,对误差信号进行量化编码而达到最小,可以确定唯一的一组线性预测系数。目前主流算法有Durbin递推算法、Levinson递推算法、舒尔(schur)算法和个性算法[2][3]。由于LPC分析是基于全极点模型的假设,所以它对于声道响应含有零点的清音和浊音和鼻音描述不确切。
2.3.2.2 线性预测倒谱系数(LPCC)
倒谱特征是用于说话人个性特征和说话识别人识别的最有效的特征之一。语音信号是声道频率特性和激励源信号源两者共同卷积的结果,后者对于某帧而言常带有一定的随机性,而说话人的个性特征很大程度上取决于说话人的发音声道,因此要将此二者进行有效的分离,可以通过对信号做适当的同态滤波,将相卷积的两个部分分离。滤波的关键是先将卷积处理化为乘积,然后做对数处理,使之化为可分离的相加成分。线性预测倒谱系数可由LPC特征进行推导,基于LPC系数分析得倒谱存在一种非常简单有效的递推求解方法。LPCC参数比较彻底地去掉了语音产生过程中的激励信息,主要反映声道特性,只需要十几个倒谱系数能比较好的描述语音的共振特性,计算量小,其缺点是对辅音的描述能力较差,抗噪声性能也较弱。
2.3.2.3 梅尔倒谱系数(MFCC)
MFCC着眼于人耳的听觉感知机理。因为听到的声音的高低与声音的频率的并不成线性正比关系,Mel频率的尺度更符合人耳的听觉特性。用Mel滤波器组对语音信号进行滤波和加权,使语音信号更加接近于人耳听觉感知系统特性,MFCC特征成为目前说话人识别和语音识别中最为广泛的特征参数。根据倒谱计算过程,MFCC计算过程可以简单地描为如下四个步骤:
(1)对语音信号进行短时傅里叶变换,得到各个帧的频谱。
(2)在Mel频率的轴上配置L个通道的三角滤波器组,L的个数由信号的救治频定。每一个三角滤波器中心频率c(l)在MEL频率轴上等间隔分配。设o(l)、h(l)分别是第L个三角滤波器的下限、中心和上限频率,则相邻三角形滤波器的下限、中心和上限频率有如下关系成立:
2.3.2.4 基因周期系数
基音是指发浊音时声带振动引起的周期性,而基音周期是指声带振动频率的倒数,基音可以分为时域、频域以及综合利用信号时域频率特性等三种提取模式,时域包括利用语音信号的采样点计算信号的波峰、波谷和过零率等,典型的方法是Gold和Rabiner提出的并行处理方式;频域的方法主要是计算信号的自相关函数、功率谱和最大似然函数等,其精度要高于时域方法,典型的方法是有中央消波自相关法、平均幅度差分函数法和倒谱法等。本文章选用倒谱法进行基因周期的提取。
1)倒谱法原理
语音信号是激励源与声道相应相卷积的结果,而“倒谱特征”则是利用了对语音信号进行适当的同态滤波后,可将激励信号与声道信号加以分离的原理。倒谱中维数较低的分量对应于语音信号的声道分量,倒谱中维数较高的分量对应于语音信号的音源激励信号。因此,利用语音信号倒谱可将它们分离,彼此基本上互不干扰,并可以避免声道分量受到随机变化的音源激励分量的干扰。
可见,倒谱域中基音信息与声道信息可认为相对分离的。采取简单的倒谱法可以分离并恢复e(n)和v(n),根据激励e(n)及倒谱的特征可以求出基音周期。然而,反应基音信息的倒谱峰在含过渡音和噪语音中将会变得不清晰甚至完全消失。原因主要是因为过渡音中周期激励信号能量降低和类噪激励信号干扰或含噪语音中的噪声干扰所致。这里可以采用一个简单的方法,就是在倒谱分析中,直接将傅里叶变换之前的(IFT)频域信号(由原始作FT逆变换再取对数后得到)的高频分量置零。可以实现类似于低通滤波器的处理,滤去噪音和激励源中的高频分量,减少了噪声干扰。图2是一种改进的倒谱基音检测的算法框图。
2.4 声纹识别技术
2.4.1 概述
声纹识别的基本原理是为了每个说话人建立一个能够描述这一说话人特征的模型,以其作为这一说话人的个性特征。在目前的话音特征与说话人个性特征还未很好的从语音特征中得到分离情况下,为每个说话者建立的说话人模型实际上是说话人的语音特征得模型。为对说话人个性特征描述的一致起见,构造一个通用的模型,常将每个说话人的模型结构取得相同,不同的只是模型中的参数,通过用训练语音对模型进训练得到。
2.4.2 典型的声纹识别算法
目前说话人识别模型主要有DTW(动态时间规划),VQ(矢量量化),GMM(高斯混合模型),HMM(隐马尔科夫模型),NN(神经元网络),SVM(支持向量机)等。本文用到GMM(高斯混合模型),所以后面会对其算法进行了详细的描述。
2.4.2.1 动态时间规划(DTW)
说话人信息既有稳定因素(发声器官的结构和发声习惯),也有时变因素(语速、语调、重音和韵律)。将模式识别与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用方法是基于最近邻原则的动态时间规划DTW,但DTW只对孤立词识别性能较好,并且高度依赖于定时,目前应用不广。
2.4.2.2 矢量量化方法(VQ)
矢量量化是一种极其重要的信号压缩方法,它广泛应用于语音编码、语音识别与合成、说话人识别、图像压缩等领域,基于非参数模型的VQ的方法是目前自动话说人识别的主要方法之一。完成VQ说话人识别系统有两个步骤:(1)利用说话人的训练语音,建立参考模型码本。(2)对待识别说话者的语音的每一帧和码本之间进行匹配。由于VQ码本保存了说话人个性特征,这样我们就可以利用VQ法进行说话人识别。在VQ法中模型匹配不依赖于参数的时间顺序,因此匹配过程中无需采用DTW技术;而且这种方法比应用DTW方法的参考模型储量小,即码本码字小。
用矢量量化方法建立识别模型,既可以大大减少数据存储量,又可以避开困难语音分段问题和时间规整问题。但是每个说话人的码本只是描述了这一说话人的语音特征在特征空间中的聚类中心的统计分布情况。在训练阶段为了充分反映说话人的个性特征要求训练语音足够长;在识别时为了使测试语音的特征矢量在特征空间中的分布能够与相应的说话人码本相吻合,所以同样要求有足够长的测试语音,在测试语音很短的情况下,这种方法的识别率将会急剧下降。
2.4.2.3 隐马尔科夫模型
HMM模型是马尔科夫链的推广,隐马尔科夫模型是一种基于转移概率和传输概率的随机模型。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统序列的输出。在HMM中,观察到的事件与状态通过一组概率分布相联系,是一个双重随机过程,其中一个是Markov链,他它描述了状态之间的转移;另一个随机过程描述状态和观察值之间的统计响应关系。HMM模型的状态是隐含的,可以观察到的的是状态产生的观察值,因此称为隐马尔科夫模型(HMM)。HMM模型同样广泛用于与文本相关的说话人识别中,并且比传统的方法有着更好的性能。HMM不需要时间规整,可节约判决时计算时间和存储量,在目前被广泛应用。缺点是训练时计算量大。
2.4.2.4 基于支持向量机(SVM)的方法
SVM是Vapnik提出的一种基于结构风险最小化二元分类器,通过非线性变换将原始集合映射到高维空间,转化为某个高维中的线性问题,寻找最优分类面,具有很好的泛化和分类能力,在手写/文字识别、文本分类和人脸识别等模式领域中取到成功的应用[4]。SVM实际上是一种辨别模式,一般情况下它只能辨别两类数据,因此需要正反两类数据进行训练。因此SVM要在说话人识别中应用,必须要解决多类分类问题。解决说话人识别的多分类问题的主要有三种形式[4]:
1)为每个人建立一个SVM,训练数据由目标说话人和背景说话人的语音分别构成“+”、“??﹣”数。
2)为每一对说话人建立一个SVM,由N个人则建立N*(N-1)/2个SVM。
3)决策树分类:决策树上每个节点将多个说话人分为两个子集,或者是一个说话人(叶节点)。