模式识别技术范文
时间:2023-03-22 22:48:25
导语:如何才能写好一篇模式识别技术,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)34-1855-02
Theory andApplications of Pattern Recognition in Criminal Science and Technology
ZHANG Song-lin1, GAO Pei-pei2
(1.Department of Electronics of Henan Mechanical and Electrical Engineering College, Xinxiang 453003,China;2.Department of Forensic of Xinxiang Medical university, Xinxiang 453002, China)
Abstract: Pattern Recognition in recent years in criminal science and technology has been widely applied,Summary of the identification process of pattern recognition and identification method commonly used,and application of pattern recognition in criminal science and technology.
Key words: pattern recognition; feature extracting; classifier; criminal science and technology
1 引言
模式识别(Pattern Recognition)是一种从大量信息和数据出发,在已有认识和经验的基础上,利用计算机及数学推理的方法对信息特征自动完成识别的过程。模式识别属计算机科学中人工智能的研究范畴[1],内容非常广泛。20世纪70年达国家开始将模式识别广泛技术应用于刑事侦察部门[2],近年来,模式识别在我国刑事技术的应用也取得长足发展,模式识别在刑事技术中的应用不仅提高了刑事科学技术水平,也极大地提高了刑事科学技术现代化的建设。
2 模式识别与模式识别系统
模式识别是对表征事物或现象的各种形式的(数值的、文字的或逻辑关系的等)特征信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。
模式识别的研究主要集中在两方面[3-4],一方面研究生物体(包括人)是如何感知对象的,另一方面是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者属于认知科学的范畴;后者则是通过数学家、信息学专家和计算机科学工作者研究的范围,目前已经取得了系统的研究成果。
模式识别通常包括相互关联的两个阶段:学习阶段和实现阶段,前者是对样本进行特征选择,寻找分类的规律构筑分类器,后者是根据分类规律对未知样本集进行分类和识别,模式识别系统框图如图1所示。
■
图1 模式识别系统框图
1) 数据采集及预处理:
数据采集是指把被研究对象的各种信息转换为机器可以接受的数值或符号集合。这种数值或符号所组成的空间为模式空间。为了从这些数字或符号中抽取出对识别有效的信息,必须进行预处理,包括进行二值化处理、数字滤波进行平滑去噪处理及规范化处理等。
2) 特征提取:
预处理后的信息送入特征提取模块抽取特征用于分类器的设计。特征提取的目的是从原始信息中抽取出用于区分类型的本质特征。无论是识别过程还是训练学习过程,都要对研究对象固有的、本质的重要特征或属性进行量测并将结果数值化或符号化,形成特征矢量。比如,指纹识别时,提取的特征有纹理、交叉点、形状等。特征的提取和选择对识别过程是至关重要的,如果模式选择得好,对不同类的模式就能表现出很大的差别,就能比较容易地设计出性能较高的分类器。因此特征的选择会直接影响到分类器的构造和识别的效果。
虽然特征的提取和选择在模式识别中占有如此重要的地位,但是迄今没有特征提取和选择的一般方法,大多数的方法都是面向问题的。有人可能认为在处理识别问题时,模式特征取得越多越好,或者说,模式向量的维数越高,对分类器的设计越是有利。经常有这样的情况,当用一组特征做出来的分类器不能满足要求的话,自然就会想到增加新的特征。虽然知道特征的增加同样也会增加特征提取的困难和分类计算的复杂性,但总认为这样可以改进分类器的性能。但是,在实际工作中,往往会发现当特征的数目达到某个限度后,不但不能改善分类器的性能,反而使它的工作恶化,产生这个问题的基本原因是用以设计分类器的样本数目是有限的。为了使模式识别的结果满意,在增加特征的同时,必须增加供学习的样本数量。
3) 分类器设计及分类识别:
生成的模式特征空间,就可以进行模式识别的最后一部分:分类器设计及分类识别。该阶段最后输出的可能是对象所属的类型,也可能是模型数据库中与对象最相似的模式编号。分类器设计及分类识别通常是基于已经得到分类或描述的模式集合而进行的。这个模式集合称为训练集,由此产生的学习策略称为监督学习。学习也可以是非监督性学习,在此意义下产生的系统不需要提供模式类的先验知识,而是基于模式的统计规律或模式的相似性学习判断模式的类别。分类器设计及分类识别的方法有很多,常见的模式识别方法:模板匹配、统计模式识别、句法(或结构)模式识别、模糊模式识别和神经元网络模式识别。
3 模式识别方法
3.1 模板匹配
模板匹配是一种相对简单的也是早期常用的模式识别方法之一。匹配是模式识别的一种分类操作,主要是判断同一类的两个实体特征间的相似性。模板匹配的基本思想主是利用实体的特征进行模板匹配。但是该方法计算量非常大,同时该方法的识别率严重依赖于已知模板,如果已知模板产生变形,会导致错误的识别结果。
3.2 统计模式识别
统计模式识别理论是一种相对较为完善和成熟的识别理论。统计模式识别,又称决策理论识别,该方法基于模式的统计特征,用一个n维特征空间(特征集)来描述每个模式,然后基于概率论矩阵理论等知识,利用合适的判别函数,将这个n维特征空间划分为m个区域,即类别。特征值分布函数可以通过指定或学习得到。统计模式识别经常用于解决分类问题。现在研究的一个热点-支持向量机就是基于统计学习理论基础上的一个新的模式识别方法。
3.3 结构(句法)模式识别
结构(句法)模式识别主要是基于特征的结构相关性将复杂的模式用简单的子模式或基元递归来描述,这种描述与文字中的句子通过多个单词来描述相似。
3.4 神经网络模式识别
神经网络可看作是由大量交互的神经元构成的计算系统[5],神经模式识别即是利用神经元网络中出现的神经计算模式进行。神经元网络允许模式可以有噪声,若训练得当,神经元网络会对未知模式的类别做出正确的响应。
4 模式识别在刑事科学技术中的应用
经过多年的发展,模式识别已被广泛应用在了刑事科学技术领域[6],如痕迹检验、票证印章识别、相貌识别等。
4.1 痕迹鉴别
痕迹鉴别是在刑事科学技术中广泛应用于查证、披露和确认罪犯的一种十分有效的技术手段。主要包括指纹鉴别、足迹鉴别、掌纹及皮肤纹鉴别、枪弹痕迹鉴别、凶器及作案工具鉴别和汽车轮胎等其它痕迹的鉴别。其中指纹识别[7,8]最为常用,经专家证实,每个人的手指、脚、脚趾内侧表面的皮肤凸凹不平产生的纹路会形成各样的图案,而这些皮肤的纹路在图案、断点和交叉点上各不相同,是唯一的。依靠这种唯一性,就可将一个人同他的指纹对应起来,从而识别出对应的案犯。现代公安系统中的指纹自动识别系统即是利用计算机进行自动识别,并与人工认定相结合,效果十分显著。这种识别技术还可以用于金融、保险、出入境安全通道、医疗卡、安全系统等重要业务的身份鉴别。
4.2 票证印章识别
票证包括护照、支票、银行信用卡、股票、国库券、发货票、产权证、工作证等有价证券、证件和票据,一般票证均采取相应的高新技术防伪措施如在票证上印刷上有特殊花纹、加金属线和荧光粉材料等。除了用一些简易的紫外线方法检验外,通常可将形成防护信息转换成代码均匀散布在票证上[2],鉴别时只需将防护信息代码提取出来由计算机进行自动识别,如直接通过刷卡、扫描等方式即可鉴别真伪。
4.3 生物特征识别
所谓生物特征识别是指通过计算机与生物统计学等手段利用人体所固有的生理特征或行为特征来进行个人身份鉴别[9,10]。生理特征多为先天性的;行为特征则多为后天性的。同时用于身份鉴别的生物特征应具有普遍性、唯一性和可接受性等特点。
基于生理特征的识别技术包括人脸识别、虹膜识别、视网膜识别、掌纹识别、手形识别、人耳识别、基因识别及红外温谱图识别等。基于行为特征的识别技术主要有步态识别、击键识别和签名识别等。
5 结束语
随着计算机软硬件技术的快速发展,模式识别得到了更多的关注,模式识别技术越来越完善,应用领域也越来越广泛。模式识别技术在刑事科学技术领域中的应用,将为刑事科学技术的发展,刑事科学的现代化进程推向一个新的高度。
参考文献:
[1] 边肇祺,张学工.模式识别[M].2版.北京:清华大学出版社,2000.
[2] 贾铁军,李锦.人工智能在刑事技术中的应用[J].刑事技术,2002,(6):56-60.
[3] 严红平,潘春洪.模式识别简述[J].自动化博览.2006(2):22-26.
[4] 熊超.模式识别理论及其应用综述[J].中国科技信息,2006(6):171-172.
[5] 潘盛辉,韩峻峰.基于神经网络的模式识别及其应用[J].广西工学院学报,2000,11(4):33-36.
[6] 贾玉文,张书杰.刑事科学技术[M].2版.北京:人民卫生出版社,1999.
[7] 杨宏林,吴陈.指纹识别方法综述[J].华东船舶工业学院学报,2003,17(3):37-42.
[8] 谢健阳,李铁才,唐降龙,等.指纹识别系统的设计与实现[J].微计算机信息,2006,22(3):156-157.
[9] 周激流,张晔.人脸识别理论研究进展[J].计算机辅助设计与图形学学报,1999,11(2):180-184.
篇2
关键词:模式;模式识别;模式识别的应用
1 引言
人们在观察事物或现象的时候,常常要根据一定需求寻找观察目标与其他事物或现象的相同或不同之处,并在此特定需求下将具有相同或相似之处的事物或现象组成一类。例如字母‘A’、‘B’、‘a’、‘b’,如果从大小写上来分,会将‘A’、‘B’ 划分为一类,‘a’、‘b’划分为另一类;但是如果从英文字母发音上来分,则又将‘A’、‘a’划分为一类,而‘B’、‘b’则为另一类。人们也可以正确地区分出它们,并根据需要将它们进行准确归类,当然, 前提条件是人们需要对‘A’、‘B’、‘a’、‘b’一般的书写格式、发音方式等有所了解。人脑的这种思维能力就构成了“模式识别”的概念。那么,什么是模式?什么是模式识别呢?
2 模式和模式识别
从以上的例子可以看出,对字符的准确识别首先需要在头脑中对相应字符有个准确的认识。当人们看到某物或现象时,人们首先会收集该物体或现象的所有信息,然后将其行为特征与头脑中已有的相关信息相比较,如果找到一个相同或相似的匹配,人们就可以将该物体或现象识别出来。因此,某物体或现象的相关信息,如空间信息、时间信息等,就构成了该物体或现象的模式。Watanabe定义模式“与混沌相对立,是一个可以命名的模糊定义的实体”。比如,一个模式可以是指纹图像、手写草字、人脸、或语言符号等。广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)。模式识别则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。计算机模式识别就是是指利用计算机等装置对物体、图像、图形、语音、字形等信息进行自动识别。
模式识别的研究主要集中在两方面,一是研究生物体( 包括人) 是如何感知对象的,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家、神经生理学家的研究内容,属于认知科学的范畴;后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。
3模式识别的方法
现在有两种基本的模式识别方法,即统计模式识别方法和结构(句法)模式识别方法。统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理论识别方法。利用模式与子模式分层结构的树状信息所完成的模式识别工作,就是结构模式识别或句法模式识别。
4.模式识别的应用
经过多年的研究和发展,模式识别技术已广泛被应用于人工智能、计算机工程、机器学、神经生物学、医学、侦探学以及高能物理、考古学、地质勘探、宇航科学和武器技术等许多重要领域,如语音识别、语音翻译、人脸识别、指纹识别、手写体字符的识别、工业故障检测、精确制导等。模式识别技术的快速发展和应用大大促进了国民经济建设和国防科技现代化建设。
4.1 字符识别
字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字( 如: 汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。
4.2 语音识别
语音识别技术技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术。该方法在语音识别时识别速度较快,也有较高的识别率。
4.3 指纹识别
我们手掌及其手指、脚、脚趾内侧表面的皮肤凹凸不平产生的纹路会形成各种各样的图案。而这些皮肤的纹路在图案、断点和交叉点上各不相同,是唯一的。依靠这种唯一性,就可以将一个人同他的指纹对应起来,通过比较他的指纹和预先保存的指纹进行比较,便可以验证他的真实身份。一般的指纹5个大的类别:左旋型(leftloop),右旋型(right loop),双旋型(twinloop),螺旋型(whorl),弓型(arch)和帐型(tented arch),这样就可以将每个人的指纹分别归类,进行检索。指纹实现的方法有很多,大致可以分为4 类:基于神经网络的方法、基于奇异点的方法、语法分析的方法和其他的方法。
4.4细胞识别
细胞识别是最近在识别技术中比较热门的一个话题。以前,对疾病的诊断仅仅通过表面现象,经验在诊断中起到了主导作用,错判率始终占有一定的比例;而今,通过对显微细胞图像的研究和分析来诊断疾病,不仅可以了解疾病的病因、研究医疗方案,还可以观测医疗疗效。如果通过人工辨识显微细胞诊断疾病也得不偿失,费力费时不说,还容易耽误治疗。基于图像区域特征,利用计算机技术对显微细胞图像进行自动识别愈来愈受到大家的关注,并且现在也获得了不错的效果。但实际中,细胞的组成是复杂的,应该选择更多的特征,建立更为完善的判别函数,可能会进一步提高分类精度。
参考文献:
[1] 边肇祺,张学工等编著. 《模式识别》(第二版). 北京:清华大学出版社,2000.
[2] 王碧泉,陈祖荫. 《模式识别理论、方法和应用》. 北京:地震出版社,1989.
篇3
关键词:实体识别; 属性模式; 扩展性; 框架
中图分类号:TP319.9 文献标识码:A文章编号:2095-2163(2014)01-0065-04
0引言
实体识别就是判别来自一个数据源或多个数据源的描述是否指向同一个实体。此问题由来已久,现已提出很多方法。解决实体识别问题所利用的信息可分为两类,属性特征信息和关系信息。基于属性特征的方法最简单、使用得也最多,但却因属性信息有限,在某些情况下并不足以提供高置信度的判断结论。越来越多的方法开始利用属性的关系或规则进行实体识别,但利用这种关系的方式却各不相同,导致缺乏通用性。对每个实体识别问题都需要重新设计解决方案也必将是低效的,因而需要开展研究,予以改进。
本文将不同属性与实体的关系模式概括为四种类型,通过模式类型决定相似度计算策略,再根据属性的格式决定基本的相似度计算函数。系统将多个属性的相似度组织成向量的形式表示,通过监督学习的方法形成判决器,最后在实体关系图上完成迭代划分。
1相关研究
文献[1,2]研究了相似函数选择和阈值确定问题。通过发现相似函数和阈值的冗余,去除不合适的相似函数和阈值设置。为了有效整合多种方法的优点,文献[3]提出了一种按有监督学习的结果聚类分配权重的方法,为权重分配提供了新的思路,但选择作为聚类的特征是经验性的,是否可以推广尚未确定。文献[4]设计了一个领域无关的实体识别系统,可以通过学习的方式对数据的格式进行转化,以满足识别系统进行比较的需要。文献[5]研究了利用合作者集合的相关性的方法,实验证明其优于一般的非整体分析的方法。
2基于属性模式的实体识别框架介绍
系统结构如图1所示,主要分为以下几个部分:
(1)相似度度量策略形成模块。该模块通过属性的模式和数据格式自动地选择相似度函数,形成相似度度量策略。
(2)相似度计算模块。该模块按照选择的相似度函数计算实体对的相似度。
(3)判决器模块。该模块在训练阶段统计实体对的相似度分布情况,在实体划分阶段辅助判断。
(4)实体关系图。实体划分阶段在实体关系图上迭代进行,每次完成实体合并以后,重新计算经过调整的实体对的相似度,直到所有相似边都处理完毕,实体划分结束。
3系统各部分的实现
3.1相似度计算策略的形成
为了实现系统的通用性,相似度计算策略必须领域无关地进行。为此分析了实体与属性间的关系,按其特点进行了分类。利用各属性的模式可以确定相似度计算的方法。
3.3实体划分算法
实体划分在实体关系图上进行。实体关系图的顶点表示记录,边表示实体对间的相似度,通过边的操作进行实体划分。
关系图的顶点分为两类,一类是原始顶点,其中只包含一条记录;另一类是划分过程中新形成的点,称为超点,超点带有表示实体的标签,且包含此实体的记录的集合。边e代表的是实体对间存在相似,边的权值为相似向量。原始关系图中仅含原始顶点,当所有实体对的相似向量计算完毕,并建立起原始关系图后,就可开始进行实体划分了。
实体划分算法主要过程为:从未标记边中选择相似度最大的边,查询判决器,若大于判断阈值,则判为同一实体,合并相关顶点,即CLUSTER操作,有关边的相似度则需要进行重新计算;否则即对边做暂时标记。继续在剩下未标记边中寻找相似度值最大的边,重复此过程。当没有未标记边剩余时,再对标记边进行拆分操作SPLIT,直到无边剩余。
CLUSTER操作主要是对顶点进行合并或创建。当边的对象(e.O)与端点标签相同时进行合并,否则就需要新建顶点。具体操作如表2所示。其中,边所连接的记录为x和y,记录所在的顶点分别为u,v。顶点调整过程中,特别当顶点包含的记录增多后,顶点的属性集合增大,此属性的相关度也可能增大,此时需要重新计算有关边的相似度。
5结束语
本文提出了一种基于模式的实体识别方法,针对模式特点的相似度计算方法更具有通用性。以向量表示属性的相似度,通过监督学习形成判决器。实体划分阶段每次选择最相似的实体对,通过查询判断单元进行判断,更新相关实体对的相似向量,并迭代进行实体划分。实验结果表明能自动有效地进行实体划分。现存的问题包括平均划分相似空间的方法不够精细,用户要求的准确率较高时,召回率较低。下一步的研究重点包括判断器的划分方式以及当用户输入较高判断阈值情况下如何提高系统的召回率。
参考文献:
[1]MENESTRINA D, WHANG S E, GARCIA-MOLINA H. Evaluation of entity resolution approaches on real-world match problems[C]//VLDB, 2010:208-219.
[2]WANG Jiannan, LI Guoliang, YU Xu , et al. Entity matching: how similar is similar[C]//VLDB,2011:622-633.
[3]CHEN Z, KALASHNIKOV D V, MEHROTRA S.Exploiting context analysis for combining multiple entity resolution systems[C]//SIGMOD,2009:207-218.
篇4
Abstract: Combined with the construction example,the attribute recognition model is applied in cutting slope stability assessment, attribute measure of cutting slope stability evaluation is proposed. and Attribute Recognition Model is established with the Shannon entropy to determine the weight coefficient. Examples of evaluation results and calculation results are consistent which confirm the feasibility and effectiveness of the method. This approach results are reasonable and can effectively solve the problems ofslope stability evaluation.
关键词:属性识别;熵权;路堑边坡;稳定性
Key words: attribute recognition;entropy;cutting slope side slope;stability
中图分类号:U416 文献标识码:A文章编号:1006-4311(2010)06-0130-02
0引言
路堑边坡的稳定性是公路工程修建过程中常见的岩土工程问题。传统的评价方法分为定性分析法和定量计算法两大类[1]。20世纪70年代以前,边坡稳定性的评价以定性分析为主,以工程地质积累和施工经验为基础,大多存在不确定性因素,而且很难给出一种统一评价标准。定量计算评价方法大多以极限平衡理论为基础,通过计算边坡的安全系数来评价边坡的稳定性,这种方法简单实用,但是由于影响边坡稳定性的因素很多,且定量计算所需指标具有复杂多变性、随机性和时效性[2~4],所以定量方法不能全面反映边坡稳定性,难以给出准确的评价结果。为了将定性与定量方法结合起来,因此相继提出了灰色聚类法、模糊评判法等。这些方法各有其优缺点,灰色聚类法一般精度较低,模糊评判法强调极值的作用,容易造成信息损失过多。路堑边坡稳定性评价中的稳定级别都是对边坡属性的一种描述,对边坡稳定性的评价实质是对边坡属性进行确定和识别的过程。另一方面,边坡稳定状况则受控于各种边坡指标,各个指标对边坡属性影响程度需要给出合理的定量表达,用以确定各个指标在评价中的权重系数。常用的定权方法在一定程度上都有主观偏向性,本文用熵值法确定指标权重,尽量消除权重的主观性。并与属性识别理论结合,应用于路堑边坡稳定性评价[5]。
1属性识别模型的建立
1.1 属性空间矩阵
在评价对象空间X取n个样本x1,x2,…,xn,对于每一个样本要测量m个评价指标V1,V2,…,Vm,第j个样本第i个指标的测量值为xij,因此,每一个样本都可以表示为一个向量xj=(x1j,x2j,…,xmj),(j=1,2,…,n),n个样本构成了m×n的样本空间矩阵:
设F为X上某类属性空间,(C1,C2,…,Ck)为属性空间F的有序分割[5],而且满足C1>C2>…>Ck,由于属性集之间是可以“比较”的,可以认为指标程度越高越“强”,因此,可以建立“强”序来进行综合评价,每一个评价指标的属性分类已知,可以写成属性分级标准矩阵:
其中amk为第m个指标在属性空间F上的第K个分割值;且ajk满足aj1aj2>…>ajk。
1.2 方案的属性测度计算
第个样本第i个指标的测度值具有属性Ck的属性测度μijk=μ(μij∈Ck)。假设aj1
当xij≤aj1时,μij1=1,μij2=…=μijk=0。
当xij≤ajk时,μijk=1,μij1=…=μij(k-1)=0。
当ajt≤xij≤aj (t+1)(1≤t≤K-1)时,μijt=|xij-aj (t+1)|/|ajt-aj (t+1)|,μij (t+1)=|xij-ajt|/|ajt-aj (t+1)|,μijk=0(kt+1)(3)
计算得到第j个样本的各指标测量值的属性测度值,然后计算第j个样本的属性测度μjk=μ(xj∈Ck)。m个指标的重要性可能相同,也可能不相同,因此必须考虑各个评价指标的权重影响,计算各指标的权重W(ω1,ω2,…,ωm),ωj≥0,ωi=1。由指标权重可计算得到属性测度μik:
μik=μ(xi∈Ck)=ωiμijk(1≤j≤n,1≤k≤K)(4)
1.3 熵权法确定权系数
确定评价指标权重时,往往采取主观确定权重的方法,如AHP法等。这样易造成由于主观因素而形成的偏差。信息熵反映了信息无序化程度,信息熵越小,系统无序度越小,信息熵越大,系统无序度越高。对于讨论的n个样本m个评价指标的初始矩阵,可采用Shannon熵理论,充分利用数据自身的信息,客观地确定出权重。其计算步骤如下[6][7]:
建立n个样本m个目标的判断矩阵R=(xij)mn(i=1,2,…,m;j=1,2,…,n)。根据不同属性,指标分为效益型和成本型,因此计算之前,必须先对每个样本进行归一化处理,具体方法如下:x'ij=xij/maxxij,效益型指标;x'ij=minxij/xij,成本型指标。
从而得到新的评价样本矩阵:
再设第i个评价指标下第j个评价点评价指标值比重为Pij=(1+x'ij)/(1+x'ij),则第i个评价指标的熵为Hi=-(pijlnpij),计算评价指标的权重为:ωi=(1-Hi)/(1-H),且满足:ωi=1。
1.4 属性识别模型
通过上述方法,计算得出各评价指标权重系数和各样本属性测度,在此基础上,就可以进行待测样本的属性识别。按照置信度准则[5],对置信度λ(一般情况下取λ=0.65或λ=0.7),识别模型为:
ki=min{k:μik≥λ,1≤k≤K}(6)
当满足(6)式时,则认为xi属于Cki类,即对样本做出了评价。
2工程实例
2.1 样本空间矩阵与属性分类标准矩阵的确定
黄土路堑边坡稳定性受多种因素影响,边坡稳定性评价指标集V=(v1,v2,v3,v4,v5,v6,v7),7个评价指标为:边坡高、边坡坡角、天然容重、土的内摩擦角、土的内聚力、地震烈度及孔隙水压力比。根据黄土物理力学特性,将黄土边坡稳定性评价分为4个级别:(I)稳定;(II)较稳定;(III)一般;(IV)不稳定;属性分类标准见表1。
表1 边坡稳定性评价标准(属性分类标准)
2.2 熵权的确定
各评价指标进行归一化处理得到判断矩阵,计算出评价指标的熵权系数Wi,Wi=(0.009,0.0012,0.014,0.3799,0.0735,0,0.5233)
2.3 属性测度的计算与属性识别
利用公式(3)和(4)计算出各样本的属性测度,结果见表2。
取置信度?姿=0.7,进行属性识别,得出路堑边坡稳定性评价结果:I点为(II)较稳定,II点为(III)一般。圆弧法计算的稳定系数分别为1.73和1.25。两种方法结论一致,从而证明了该方法在边坡稳定性评价中的有效性。
表2 属性测度计算结果
3结论
利用评价样本信息所确定的熵权,避免了确定权重的主观偏向性,有助于提高评价方法的可靠度,熵权系数法与属性识别理论模型结合,构成基于熵权的属性识别评价模型,评价结果合理,计算简单。通过在路堑边坡稳定性评价中的应用,如实地反映了边坡稳定性的实际情况,表明该方法是切实可行的,对其它工程评价也具有一定的借鉴意义。
参考文献:
[1]崔政权,李宁.边坡工程――理论与实践最新发展[M].北京:中国水利水电出版社,1999.
[2]谢全敏,夏元友.岩体边坡稳定性的可拓聚类预测方法研究[J].岩石力学与工程学报,2003,22(3):438-441.
[3]莫勇刚,丁德馨,肖猛.改进的BP神经网络在边坡稳定性评价中的应用[J].矿冶,2006,15(2):9-12.
[4]杨蕾,林红.混和遗传神经网络在边坡稳定性评价中的应用研究[J].中国农村水利水电,2006,7:75-79.
[5]程乾生.属性识别理论模型及其应用[J].北京大学学报(自然科学版),1997,1:12-20.
篇5
【摘要】 目的: 建立适用于社区中脑膜炎与其他中枢神经系统疾病的鉴别诊断模型。方法:采用不等带宽核密度估计的非参数判别分析,对中国典型病例大全近四年内符合纳入标准的161例脑膜炎和161例非脑膜炎患者完整的病例资料进行分析。结果: 经交叉证实法得到脑膜炎组的判别正确率为83.95 %,对照组为71.25 %,总的判断正确率87.64 %。同时对资料进行logistic回归和人工神经网络模型进行分析,并进行与人工神经网络和logistic回归所建立的模型进行比较。结论: 非参数判别分析建立的脑膜炎诊断模型是理想模型。
【关键词】 非参数判别; 交叉证实; 诊断模型; 脑膜炎
脑膜炎是由病原体引起的中枢神经系统严重的感染性疾病。由于发病原因复杂,诊断难度大,病程凶险且可造成流行,因此,在亚洲一些地区,流行性脑膜炎是15岁以下的孩子死亡的主要原因之一。流行性脑膜炎在流行强度较大的时候会导致3000~10000人死亡[1]。脑膜炎早期的症状不具有特异性,因此在社区医生水平有限的情况下很难得到重视,而大部分的脑膜炎都是急性的,尤其是流行性脑脊髓膜炎,一旦没有及时诊断,对病人的生命和愈后都会造成很大的影响。因此,建立适合于社区的脑膜炎初筛诊断模型对提高社区卫生服务能力是很有意义的。
1 资料和方法
1.1 资料来源
在互联网上系统检索国内信息量最大且有高影响力的《中国期刊全文数据库》(CNKI) 及其新近开发的含有100多万病例的医学数据库《中国典型病例大全》(Medical Case),以医学主题词表中的“脑膜炎”为关键词,以“病例报告、病例分析”为副关键词,检索2005年1月~2009年3月的相关临床病例。
1.1.1 脑膜炎病人纳入标准 ①数据库中有完整症状、体征和实验室检查记录,及临床诊断明确的脑膜炎病例、病案;②年龄≥3周岁;③首次发病或首次因脑膜炎住院的患者;④发病前无肢体瘫痪或脑与脑神经功能障碍等的患者。
1.1.2 对照组病人选择标准 ①数据库中有完整症状、体征和实验室检查记录及临床诊断明确,并有治疗记录的其他相关的同期非脑膜炎的中枢神经系统病例、病案;②病人≥3周岁且与脑膜炎病例年龄相近。
1.1.3 病例排除标准 ①患有严重并发症;②患有严重精神疾病、痴呆者;③交叉重复的病案;④多脏器功能衰竭等严重病人;⑤由其他医院转院过来的病人;⑥医院获得性脑膜炎病人(如因手术感染所致)。
1.1.4 质量控制 对病例筛选和数据录入进行质量控制:①制定统一标准选择病例;②建立数据库,统一调查项目;③双录入,及时纠错;④注明资料出处,从病例筛选、数据录入、统计分析等各步分别进行核准。
1.2 研究方法
1.2.1 数据挖掘 数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程[2]。临床医学上大量的数据中蕴含着丰富的信息。利用数据挖掘技术, 通过数据训练集所训练得到的算法模型能够有效应用于疾病诊断, 并获得很高的准确率。尤其是临床上大量的数据都还为得到挖掘利用,本研究对《中国期刊全文数据库》和《中国典型病例大全》两个数据库中收集回顾近四年符合纳入标准的161例脑膜炎和161例非脑膜炎患者完整的病例资料进行判别分析研究。
1.2.2 判别分析 判别分析是根据已得到的一批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。判别分析近年来在自然科学、社会学及经济管理学科中都有广泛的应用。在医学上也已逐步用于疾病的诊断。本研究采用不等带宽核密度估计的非参数逐步判别分析。下面介绍不等带宽核密度估计的非参数判别分析的主要步骤:
首先建立判别对象x 与j 类中判别对象Y间的平方距离函数:
D2(X,Y)=(X-Y)COV-1j(X-Y)
(X-Y) :对象X与j 类中对象Y的各相同指标差值向量;COV-1j(X-Y) :对象X与j 类中各对象Y的各相同指标差值的协方差矩阵之逆矩阵。
其次求出判别函数:
F(X / j)=n-1jSUiMexp(-5D2(X,Yji/ |R2)
D2(X,Yji) :对象 X与j 类中第i 个对象Yji 间的平方距离;R2 :各指标分别与分类变量间相关系数的平方之均值。
然后计算后验概率:
Pr(j / j)=PRIOPjF(X| j) / SUkMPRIORkF(X|k)
PRIORk 为k 类的先验概率。
最后将判别对象判入后验概率大的类别中[3]。
1.2.3 统计学方法 应用SAS9.0软件编程建立非参数判别分析模型,对322例病例组和对照组资料进行判别归类,最后采用交叉验证法来验证判别函数的功效。
转贴于 2 结果
2.1 变量赋值和单因素结果
单因素分析与判别指标的选择,首先选取以下症状或体征作为自变量进行数据录入和单因素分析。表1 判别分析引入变量赋值表
分类变量(病案中明确检查诊断为依据) g :g = 1 (脑膜炎) 、g= 0(非脑膜炎) 。对上述症状体征采用单因素卡方检验进行比较,在脑膜炎患者中,多数病人具有发热、头痛、脑膜刺激征,在病例组中发生频率均比对照组高,差异有统计学意义(P
2.2 判别分析中训练集和测试集的选择
训练样本为322例数据中按年龄排序,然后每间隔一例取一例为训练样本,病例组中81例,对照组中80例共161例数据。测试样本为:322例数据中除去161例训练样本剩余的161例数据,其中病例组80例,对照组81例。
2.3 交叉证实结果
2.3.1 本研究采用不等带宽核密度估计的非参数判别分析,对训练样本进行判别分析,采用交叉证实法(Cross validation)来检验判别函数所建立的模型的判别效果,可以得到诊断模型的灵敏度为65.4%,特异度为76.3%,阳性预测值为73.6%,阴性预测值为68.5%,调整一致性为71.0%。判别结果见表2。表2 判别分析模型诊断模型脑膜炎训练样本
2.3.2 应用判别结果 用根据训练样本所建立的判别函数对剩下的161例测试集进行判别分析,得出测试样本的灵敏度为71.3%,特异度为84.0%,阳性预测值是81.4%,阴性预测值是74.7%,调整一致性为77.9%。得到判别结果见表3。表3 判别分析模型诊断脑膜炎测试样本与金标准比较
3 讨论
国外已有的辅助医生进行快速筛检的脑膜炎诊断三联征有:澳大利亚的“发热、呕吐、头痛”[4];而国际上更多用的是“发热、颈强直、意识状态改变”[5]。本研究将发热、头痛及脑膜刺激征作为诊断脑膜炎的三联征,并用非参数判别的方法建立判别函数来检测“发热、头痛和脑膜刺激征”作为脑膜炎诊断三联征的效果,得出此诊断模型的灵敏度是71.3%,特异度是84.0%,阳性预测值是81.4%,阴性预测值是74.7%;与金标准的诊断符合率为77.9%,说明该三联征的诊断效果已比较理想。但实际效力如何还有待于临床实践的检验。
非参数判别分析方法的应用并不多见,但是对于自变量主要为二分类的资料,作者认为应选用非参数的判别分析,本研究采用不等带宽核密度估计的非参数判别分析,对训练样本判别对象,采用交叉证实法(Cross validation)来检验判别效果:在161测试样本中,80 例脑膜炎病人有68例判为脑膜炎,13 例错判为非脑膜炎,判别正确率为83.95 %;81 例非脑膜炎病人有57例判断为非脑膜炎,有23 例错判为脑膜炎,判别正确率为71.25 %;总判别正确率=87.64 %,判别效果良好。
以上研究结果表明,基于网络数据库的资料进行三联征的研究是可行的,应深入进行有关的研究工作。然而,用网络数据库中的资料进行研究也有一定的缺点,例如在病历报告或病例分析中的症状、体征常不描述,或虽已描述但不完整,且易受作者主观取舍的影响。另外由于发表在中国典型病例大全上的脑膜炎病例数量有限,在以后研究的过程中应尽量增大样本量来减小偏倚。
参考文献
1 R′emy Teyssou , Erwan MurosLe Rouzic. Meningitis epidemics in Africa: A brief overview. Vaccine2007,25: A3~A7.
2 David Martens, Liesbeth Bruynseels, Bart Baesens. Predicting going concern opinion with data mining. Decision Support Systems, 2008, 45: 765~777.
3 高歌, 王艾丽, 曹晓韵. 非参数逐步判别分析在脑中风分类诊断中的应用.数理统计与管理, 2004, 23(5): 48~51.
篇6
好的体验
触摸不是新鲜的概念,但是在iOS设备带来大跨越之前,它没有在与键盘加鼠标的竞争中占到便宜,触摸板、电阻屏、单点触摸都是其发展过程中所经历的步骤。Windows系统统治了30年的PC领域,“焦点”概念从面向对象的编程理念开始渗透,多点概念一直被忽略,直到Windows 8的出现,由多个手指(尖)所呈现的所谓手势,成为重要性与鼠标指针等价的人机互动信息。
电脑如何知道人的意图?如果电脑知道,并且理解正确,还能及时反馈,那么对用户来说就是好的使用体验。看似简单、说起来容易的“好”,实现起来并不容易,这需要在电脑设计和制造的过程中,上至操作系统、驱动程序,下至硬件调试和软件开发等产业链的通力合作。精度、灵敏度、响应速度、误触识别等几项是考察触摸技术的基本指标,而压力识别、多指手势、触控兼容性则对触摸技术提出了更多的挑战。
精度差异
相对于显示面积狭小的手机等智能终端,笔记本电脑上的触摸屏硬件结构限制较少,但是考虑到与屏幕面积、感应网格密度线性相关的成本,目前大尺寸的触摸屏定位的绝对精度仍逊色于手机。甚至在入门产品上,32×18的触摸传感器矩阵仍在使用,对14英寸、1366×768(点距0.225mm)分辨率的主流屏幕来说,刚刚能够满足微软所规定的触摸感应区域9mm直径的精度下限。而对主流产品来说,触摸精度为30个像素的水平,折合触摸响应区域直径也达到了6mm以上。
随着触摸屏幕参数规格的提升,用手指操作的体验仍旧能够得到提升,本次CHIP选取的屏幕尺寸为11.6英寸的华硕VivoBook S200E就是其中的代表,该产品触控芯片、传感器网络和驱动程序,与主流华硕笔记本电脑相同,具有一定代表性。在测试中,S200E的触摸屏表现出良好的灵敏度和精度,在使用2mm厚硬币进行测试的过程中,该机依旧保持了准确的接触位置识别能力,而主流机型需要使用厚度近5mm的硬币方可实现定位识别。使用硬质金属材料在电容式触摸屏上慢速划动,所绘制的线条会呈现特有的抖动现象,其中水平和垂直线条可保持笔直,而斜线条的抖动距离与传感器分布密度相关。S200E的每个抖动波浪斜向距离约7mm,映射至水平及垂直方向约为5mm,即传感器矩阵密度,由此推算其有效感应区域直径不大于2.5mm,精度两倍于主流产品。
随着硬币滑动速度提高,曾经弯曲的线条逐渐变得平滑,灵敏度越高的屏幕线条从弯曲到平滑的速度越低,出现“断线”情况的滑动速度越高。在这个测试中,S200E的表现非常出色,使用手指滑动从未出现过断线现象。
改进软件
S200E触摸屏采用了Atmel maXTouch Digitizer感应芯片,除了硬件规格高之外,其驱动程序还经过特殊调教,提升了USB接口的默认采样速度,以及触摸感应的优先级。因而它有着较其他产品更高的灵敏度就不足为奇了。除了常规的触摸屏增强外,S200E对触摸板特性也进行了增强。Windows 8内置的多点触摸特性仅支持触摸屏,而触摸板的多点触摸功能并未进一步开发。利用华硕开发的ASUS Smart Gesture软件,其触摸板增加了1至3指的手势操作和类似于触摸屏的边缘手势操作功能,无论用户习惯使用哪个触控设备,都能获得一致的使用体验。
手的表达
篇7
模式识别技术的应用,使微电子封装工艺得到迅猛的发展。如引线脚数逐年提高,平均每年増加16%,PGA的引线脚数己由300〜400条増到1000条,QFP>400条,BGA>60条,引线节距逐年下降,己由2.54—1.27—0.65—0.5—0.4—0.3—0.15—0.1mm。
1基本概念
1.1模式识别技术
模式是对某些感兴趣的客体的定量或结构的描述,模式类是具有某些共同特性的模式的集合。模式识别就是用计算机来模拟和实现人的识别与理解功能(包括视觉信息与听觉信息),依靠这种自动技术,机器将自动地(或人尽量少地干涉)把待识别模式分配到各自的模式类中去。模式识别技术有统计模式识别(几何方法),句法模式识别(结构方法),模糊模式识别与智能模式识别。模式识别技术广泛地应用于军事(目标识别,定位),公安安全(指纹,声纹,身份证实与识别),地质,石油,资源,农业,医疗卫生与自动化控制中,在微电子工业生产中己得到越来越广泛的应用。
1.2模式识别的系统结构
模式识别的系统结构如图1所示,分为识别模式与训练模式两部分。先设定训练模式,对训练样本数据采集后把不同特征的非电量,如图像、声音、灰度等转变为电信号,使计算机能够辨识。后经预处理可以滤除干扰、噪声,再经特征提取与选择后进入分类器,提供分类决策。在待识别模式中对待识别样本同样经过数据采集、预处理、特征提取与选择后,从训练模式中的分类器中提取分类决策,得到识别结果。若分类器不能提供目前的分类决策,则得到错误检测,需要更新训练模式,直到重新获得正确的分类决策。
其中最重要的一个环节就是特征(基元)的提取与选择。这是一个去粗取精,由量测空间经过变换降维到特征空间的过程。具体到微电子封装工艺中,就是识别元件的图案并确定切割线、粘取点与焊接点等的过程。
2模式识别技术在微电子封装工艺中的应用
2.1SOT—23塑封工艺的流程及模板匹配法
SOT—23工艺是一种二极管、三极管或其他元器件表面贴片塑封工艺。其工艺流程如图2所示。
其中前几道工序,如划片、粘片与焊线对整个流程的质量与产量影响很大,而其中所依赖的关键技术就是模式识别技术。在自动化日益发展的今天,任何形式的模式识别技术与人工智能,都能使生产力更上一个新的台阶,实际上,我们剖析开来,在整套貌似先进的SOT—23生产线的工艺过程中,采用的都是比较原始、比较基本的模板匹配法。
模板匹配法基本上是一种统计识别方法,就是定义一个标准样本作为模板,输入待识别模式与之比较,也就是看两者是否匹配在一定的误差范围内判断结果。因为每一模板与未知样品匹配得好坏,取决于模板上各单元与样品上各相应单元的匹配与否,若分别处于模板与样品上的绝大多数单元均相匹配,则称该模板与样品“匹配得好”,反之则称“匹配不好”,并取匹配最好的作为识别结果。采用比较多的有光学模板匹配、模拟灰度和数字灰度。SOT—23工艺中采用的就是这种灰度匹配法,提取图像的灰度作为特征基元来作匹配。
2.2划片工序中的模式识别技术
由于生产的线宽微细化(0.5〜0.25/mm,开发水平0.18〜0.07/mm),并且每四年缩小1/2,为保证数以万计的芯片得到正确、无偏离、无损伤的切割,就需要高标准的采用模式识别技术的划片机。划片工序的流程如图3所示。
此工序中,关键是预先对灰度与芯片和间隔宽度的调整与设置,即划片机的核心技术就是运用模式识别中对灰度特征基元的提取与识别,达到自动识别的目的。一般采用手工与自动配置相结合的方法,隔一定的时间进行人工检查以免意外损伤。即使是划片机的一些枝节技术也离不开模式识别技术,如对芯片字符、码确认的字符识别装置,就是对最典型最通用的模板识别技术的应用。
2.3粘片工序中的模式识别技术
粘片工序在SOT—23工艺流程中尤为重要,是承前启后的关键工序,因为粘片的成功数量决定了产品的产量,粘片的质量直接影响焊线工序的质量,所以粘片工序要解决的问题就是把歪粘、错粘、漏粘数目降到最低水平。由于芯片生产的差异,使不同的厂家的产品在图案灰度与边缘界定上都有很大的差异,所以提高模式识别的能力更为必要。粘片工序的流程如图4所示。
选好标准图案后存储到系统中,存储图案灰度就是提取一个特征,其中包括了芯片的大小尺寸和灰度等特征,以此作为模式识别的一个标准模板《,在粘取一个目标与模板比较中,就要处理歪斜、灰度过低等现象。设一个待识别目标的某项指标为石,则内-乃|<(/=1,2,3..,为对应此项的阈值)时可以判断此
项指标在所限制的阈值范围内,符合(或基本符合)决策要求。如果各项指标都在其限定的阈值范围内,可以判定此目标与标准模板匹配,即各项指标的总和使机器判断是丢弃或粘取此目标。
粘片工序中,在注意熔化温度的同时,随时调整标准模板与选择适当的灰度也尤为重要。
2.4焊线工序中的模式识别技术
用焊线机把芯片的极点与引线框架焊接起来,引出管腿。由于芯片极点区域窄小,必须保证焊点在极点区域内部,不能有一丝的越出极点边界和拉丝现象,否则,极点间就会短路。与粘片机相比,焊线机必须具有更强的识别能力,并且在一个芯片上面有不同的极点,识别的区域更为多样和细微。
焊线工序的识别过程类似于粘片工序。
对于小尺度芯片,除了正确地把握金线的熔化温度和焊点大小外,对焊点区域识别的精确把握也是焊线成品质量提高的重要一环,如果对标准模板灰度和坐标位置选择不当,就会导致大量半成品的浪费。
同时,焊线工序对粘片工序有很大的依赖性,如果粘片工序中的漏、歪片和熔化过度片很多,自动匹配就无法进行。若设置为忽略不能匹配的芯片,势必造成很大的浪费;若用手工单个焊接不能匹配的芯片,会影响流水线的进程。因此,粘片机与焊线机在某些参数的设置上必须协调统一。
3结束语
模式识别技术在微电子封装工艺中得到了广泛的应用,在更为复杂的封装工艺中,几乎每一个自动化进程都与模式识别技术相结合。模式识别技术的应用对于提高半导体分立元器件和集成电路的产量与质量,提高集成化和智能化进程具有重大的意义。
参考文献:
[1]沈青,汤霖.模式识别导论[M].长沙:国防科技大学出版社,1991.
[2]李介谷,蔡国廉.计算机模式识别技术[M].上海:上海交通大学出版社,1986.
篇8
关键词:仿生;模式识别;神经网络;分类器
中图分类号: F224-39 文献标识码: A 文章编号: 1673-1069(2017)02-154-2
1 仿生模式识别的引入
为了适应现实需要,人们开始希望机器能够代替人类完成某些繁重的识别工作。我们通常所说的模式识别就是指运用机器进行分类识别。以往的识别方法,多数是建立在“分类划分”的基础上,根据给定的分类准则来找寻“最优的分类界面”,具体的实现算法也都是注重于不同类样本的区别,即,一类样本与有限种类已知样本之间的区分。基于此出发点的局限性,识别当中出现的问题是显而易见的:首先,如果遇见未学习过的新事物,常常会牵强地认为它是某一类已学过的旧事物;其次是对未学习过的新事物进行学习时,往往会破坏掉原来的规矩,打乱旧事物的识别。针对以上的缺陷,才有了仿生模式识别的概念。仿生模式的目标是找到同类事物的最佳覆盖面。
2 仿生模式识别在神经网络中的超曲面划分
2.1 多权值神经网络的高维封闭曲面
(5)式中Wji和W′ji是方向权值,它们决定了曲面的方向,W′ji是核心权值,它决定了曲面的几何中心。Xj为第j个输入端的输入;n是输入空间维数;p为幂参数,用以控制曲面的弯曲程度;s表示单项正负号方法的参数,若S=0单项符号只能为正,若S=1时单项的符号和Wji的符号相同;若设置了S=0,则该式就变成了一个封闭超曲面的神经元。f函数的基设置为一个定值时,输入点的轨迹是一个封闭的超曲面,其核心位置由决定。
用p值来改变封闭超曲面的形状,如图1~图8所示。若使权值取不同的值,就相当于将封闭曲面在不同方向进行拉伸或压缩,θ取值不同,则偏离核心位置的程度也不同。
2.2 通用超曲面神经网络的计算式
上式中,Ymi(t+1)是输入空间的第i个神经元在输入第m个对象,在t+1时间的输出状态值。i是神经元数量,最大是1024。Wji与W′ji是第j个输入节点至第i个神经元的“方向”权值和“核心”权值;fki是第i个神经元的输出非线性函数,下标ki是第i个神经元的非线性函数在函数库中的序号;Imj表示的是第m个输入对象中的第j个输入值;W′cgi和是Wcgi第cg个(取值范围[1,256])神经元输出到第i个(取值范围[1,1024])神经元的权值“核心”和“方向”权值;p表示的是幂参数;而S是单项正负符号规则;(t)为当输入为第m个对象时第cg个神经元在时间t的输出状态值,θ([1,1024])是第i个神经元的阈值;λi是神经元非线性函数坐标比例因子;Ci是神经元输入规模比例因子。
由传统的BP神经网络和经向基RBF神经网络及超曲面神经网络对图9中三类事物的分类边界分别为折线和圆环及椭圆的并,可见超曲面神经网络具有更准确的分类效果。
3 总结
仿生模式识别是对事物逐类分别训练“认识”的过程。它的显著优点是对于没有经过训练的对象会拒识,而新增加样本的训练不会影响到原有的识别。因此,仿生模式识别,较之原有的识别模式识别效果更佳,可以广泛应用在人脸识别,语音识别等众多领域。
参 考 文 献
[1] 覃鸿,王守觉.多权值神经元网络仿生模式识别方法在低训练样本数量非特定人语音识别中与HMM及DTW的比较研究[J].电子学报,2005(5).
篇9
关键词:动作捕捉技术;三维人体动作;智能舞蹈教学;运用
中图分类号:G642 文献标志码:A 文章编号:1007-0125(2013)11-0247-01
一、动作捕捉技术
动作捕捉(Motion capture)技术所涉及的内容较为广泛,主要包含有尺寸的测量、物理空间内的物体定位以及方位的测定等。就其技术角度而言,运动捕捉的实质就是对物体在三维空间之中的运动轨迹进行一定程度的测量、跟踪以及记录。一般情况下,具有典型性的运动捕捉设备主要包含了四个组件,分别是传感器、信号捕捉设备、数据传输设备以及数据处理设备。下面就这四个组件进行简要阐述:
(一)传感器:传感器就是一种跟踪装置,一般情况下,它是被设置在运动物体的关键位置,其功能主要是对运动物体的运动位置信息进行提供;
(二)信号捕捉设备:一般情况下,如果动作捕捉系统具有一定的差异性,那么信号捕捉设备也会有多不同,其主要功能是对传感器所提供的位置信号进行有效捕捉;
(三)数据传输设备:对于动作捕捉系统而言,它需要将大量的运动数据从数据捕捉设备传输到计算机系统之中进行处理,同时,这一过程还需要保证传输的准确性与高效性,数据传输设备便是负责这项工作的设备;
(四)数据处理设备:一般情况下,当捕捉到相关的数据之后需要进行一定程度上的修正与处理,在这项工作完成之后,还需要将其余三位模型向进行有效的结合,这样才能完成接下来的操作。
二、三维人体动作的识别
一般情况下,三维人体动作的识别主要包含了三种模式,分别为已分割的动作模式识别、连续的动作模式识别以及实时动作数据流识别。
(一)已分割的动作模式识别:它首先进行一个假设,即每一个动作样本都是事先由人工或者运动机器方法进行分割,同时,它仅仅只包含有一个动作模式。因此,对于已分割的动作模式识别就是要对各个未知的动作模式进行一定程度上的分类,使其归类到已经定义的动作类别当中去。
(二)连续的动作模式识别:对于未知的数据动作而言,它一般都包含了多个动作模式,除此之外,这些动作模式的类型以及首尾帧都是未知的。所以,对于连续的动作模式识别,不能像已分割动作模式的识别一样,仅仅对未知动作直接同训练数据进行匹配识别。相反,连续的动作模式识别应该先对未知动作进行一定程度上的自动分割,并使其成为独立的动作模式,然后再对其进行一定程度的识别。
(三)实时动作数据流识别:这一模式的数据识别最为复杂,一般情况下,它是发生在实际的实时应用当中。对于实时动作数据流的识别之所以如此复杂,主要是以为内其待识别的数据流都是通过现场捕捉而得到的,除此之外,他还要求能够在捕捉的同时进行一定程度上的识别处理,这样一来,识别系统就能够以处理结果为依据,对用户的输入动作进行及时的反应。
三、三维人体动作在智能舞蹈教学中的运用
对于动作捕捉数据而言,它可以对先后动作进行一定程度上的比较,然后再再将比较所得到的信息进行相应的反馈。针对这一情况,本文介绍一种智能舞蹈教学系统,这一系统主要是由C++编程语言以及OpenGL软件包共同实现,在对这一系统进行使用时,有两种模式可以供用户选择,这两种模式分别为训练模式以及舞蹈模式。
训练模式:训练模式主要是供用户进行自主学习。首先系统对相关动作进行一定程度上的捕捉,然后系统根据所捕捉到的动作进行处理,使其以三维动画的形式向用户进行呈现,用户就可以根据系统所提供的三维动画进行自主学习。
舞蹈模式:舞蹈模式全称为自由舞蹈模式。在这一模式之下,用户可以在一定的时间内进行自由舞蹈,在用户舞蹈的同时,系统也会对其动作进行实时捕捉,然后将捕捉到的信息由识别引擎进行识别,这样一来,不仅提高了这一系统的有效性,同时也增添了一些乐趣。
四、结束语
随着动作捕捉技术与三位人体动作识别技术的发展,使得它们在越来越多的领域中得到广泛使用。本文主要针对三维人体动作及其在智能舞蹈教学中的运用进行研究与分析,希望我们的研究能够给读者提供参考并带来帮助。
参考文献:
[1] 杨洋.三维人体动作分析及其在智能舞蹈教学系统中的
应用[D].合肥:中国科学技术大学,2012.
[2] 孙运达.多视点非接触式人体运动捕捉的研究[D].北京:
北京交通大学,2006.
篇10
设计模式识别是对程序源代码信息进行分析,抽取出其中所运用的设计模式,是软件逆向工程的一部分。因此,设计模式识别的对象一般为面向对象程序系统的源代码信息。本文以Java源代码为设计模式识别目标,结合Java语言的特点进行源代码信息的抽取。
1.1源代码信息抽取
根据DPDLXS语言的定义规则,将设计模式的特征信息描述为类角色Roles、类之间关系Relations和自定义类型TypeRep3个部分。源代码信息的抽取也遵循DPDLXS语言的定义规则,解析为类角色Roles和类之间关系Relations。其中,一个类角色Roles又分为类属性Attribute和类操作Operation子元素以及各自的属性。根据Java语言的特点和设计模式描述语言DPDLXS的定义规则,给出了源代码信息抽取流程,如图1所示。
1.2类无向图和连通分量
对源代码进行设计模式的识别往往都是以一个工程或一个面向对象程序系统为一个整体进行分析,其中包含了数量庞大的类文件。然而,一个设计模式所参与的类角色只有3-5个左右,为了匹配一个设计模式的特征而去遍历整个工程的类文件显然是不可取的。根据设计模式的结构特征,构成一个设计模式的每个角色类至少与其他角色类存在一种关系,包括一般化关系(Generation)、关联关系(Association)、聚合关系(Aggrega-tion)、合成关系(Composition)和依赖关系(Dependency)。从图论的角度上来说,如果把每一个类角色看成是一个顶点(Vertex),类角色之间的任何一种关系看成是两个顶点之间的一条边(Edge),整个设计模式类图就可以看成是一个无向图,而且是一个任意两个顶点都连通的连通图(ConnectedGraph)[11]。同理,待识别的整个工程的源代码类图就可以看成是一个庞大的无向图,如图2所示;无向图中的每一个极大连通子图都是一个连通分量(ConnectedComponent)[11],如图3所示。因此,匹配的某一设计模式特征的待识别类候选集合一定是该工程无向图中一个顶点数目大于等于设计模式角色类数目的连通分量。2.3关联度通过引用图论中无向图和连通分量的概念,将设计模式的识别从源代码中匹配特定设计模式特征转化成在无向图中查找满足顶点数目的连通分量。通过过滤不满足该设计模式角色类数目的连通分量可以减小候选集合,从而减小搜索空间,提高识别效率。然而,在信息抽取的初级阶段并不知道待识别工程源代码无向图的连通分量。为了方便遍历无向图从而得到该无向图的连通分量,本文将待识别源代码的无向图表示成一种链式存储结构———邻接表[11]。本文根据从源代码信息中抽取出的类之间关系信息来构建无向图,得到无向图的顶点集合V和代表类之间关系的边集合VR。将集合V中的每一个顶点都表示成一个头结点,如图4(a)所示;根据集合VR中顶点之间的关系构建该头结点包含的表结点,如图4(b)所示,从而得到图2中无向图对应的邻接表,如图5所示。运用邻接表这种链式存储结构,从第一个头结点开始遍历可以得到无向图的所有连通分量。无向图连通分量的具体深度遍历算法如下:Step1遍历头结点,设置该头结点的visited为true;若该头结点的链域为空而且是第一个头结点,则结束;若不是第一个头结点则返回上一层表结点,跳到Step4;若链域不为空则继续下一步。Step2遍历链域所指向的表结点,根据表结点的邻接点域找到下一个头结点。Step3若该头结点的visited为true,则返回上一层表结点,跳到Step4;否则跳到Step1。Step4遍历表结点的链域,若链域不为空则跳到Step2;若链域为空,则返回上一层表结点并判断是否存在上一层,若存在则跳到Step4;否则结束。该算法一次遍历结束后,所有遍历到的顶点集合就是一个连通分量。然后寻找下一个visited为false的头结点作为第一个结点继续遍历,直到遍历完所有头结点。利用该算法对图5所示邻接表进行遍历可以得到两个连通分量,其顶点集合分别为:S1{A,C,B,E}和S2{D}。每一次遍历都可以得到一个连通分量,每个连通分量都是待识别源代码类图中至少与其他类存在一个关系的所有类集合。该集合中的类彼此之间存在着可能构成某种设计模式的类关系。因此,本文提出用关联度(Correlation)的概念来衡量和唯一标识待识别源代码之间的这种联系。每一个关联度值标识了一个连通分量,连通分量中的各个类拥有相同的关联度值,其集合称为关联类集合。
2设计模式识别
在完成源代码信息抽取(包括类信息、类的属性和操作,特别是根据类之间的关系构建了关联类集合)之后,需要根据具体设计模式特征来检测和识别源代码中运用的设计模式。
2.1设计模式识别流程
为了减小设计模式识别的搜索空间,本文在源代码信息抽取阶段将待识别源代码类组合成一个个关联类集合。根据设计模式角色类之间的关系特征可以得出:只有同一个关联类集合中存在该设计模式的所有角色类,并且关联类之间符合对应角色类之间的所有关系特征,才能判定关联类集合运用该设计模式。因此,首先可以根据设计模式角色类数目过滤类数目不足的关联类集合;其次可以根据设计模式所蕴含的角色类之间的关系特征过滤不满足类之间关系类型和关系数目的集合;最后根据设计模式的具体特征约束遍历满足条件的候选关联类集合,得出最终的识别结果。具体的识别流程如图6所示。
2.2基于关联度和特征约束的设计模式识别算法
根据本文提出的源代码类角色信息间关联度的概念以及设计模式识别的流程,充分利用关联类集合和设计模式特征约束来减小设计模式识别的搜索空间,可以得出基于关联度和特征约束的设计模式识别算法DETECT_DESIGNPA=TTERNS,具体描述如算法1所示。
3结果和分析
根据所提出的源代码信息抽取流程以及基于关联度和特征约束的设计模式识别算法,本文对Junit、JHotDraw和Jrefactory3个开源应用程序进行信息抽取和部分设计模式的识别。
3.1工厂方法模式
基于提出的源代码信息抽取流程(见图1),本文从源代码文件数目、类、属性、方法和类之间的关系数目以及源代码行数等方面对3个开源应用程序源代码进行信息抽取。其抽取结果如表1所列。从表1的抽取结果可以看出,这3个开源应用程序在文件数目以及代码复杂性等方面各不相同。类之间存在的关系越多,体现了源代码结构复杂度越高,同时也意味着可能运用了更多的设计模式。
3.2设计模式识别结果