卷积神经网络的核心范文

时间:2024-04-08 18:04:48

导语:如何才能写好一篇卷积神经网络的核心,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

卷积神经网络的核心

篇1

关键词:图像分类;深度学习;Caffe框架;卷积神经网络

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)35-0209-03

Research and Implementation of Image Classification Based on Convolution Neural Network

WANG Chao

(Information Engineering Institute,East China University of Technology, Nanchang 330013, China)

Abstract: The problem of image classification has been the core problem in computer vision. A good solution is developed by further study which can solve the problem of extracting image features in image classification. In order to learn image features efficiently, constructing the machine learning model with hidden layer as well as training a large number of image data will eventually promote the accuracy of image classification or prediction. This paper is intended as an in-depth Caffe learning framework to construct a small image data-base. The convolutional neural network provided by Caffe framework will make a training analysis of the data set and then extract the information of target image features. These can be used for the final prediction of the target image. Compared with the traditional image classification algorithm, the accuracy of the prediction will be greatly improved.

Key words: image classification; deep learning; Caffe framework; Convolutional Neural Network

S着计算机与互联网技术的快速发展,我们已经进入了一个以图像构建的世界。但是面临有海量图像信息却找不到所需要的数据的困境,因而图像分类技术应运而生。通过各种机器学习算法使计算机自动将各类图像进行有效管理和分类,但是由于图像内容包含着大量复杂且难以描述的信息,图像特征提取和相识度匹配技术也存在一定的难题,要使得计算机能够像人类一样进行分类还是有很大的困难。

深度学习是近十年来人工智能领域取得的重要突破,在图像识别中的应用取得了巨大的进步,传统的机器学习模型属于神经网络模型,神经网络有大量的参数,经常会出现过拟合问题,因而对目标检测准确率上比较低。本文采用卷积神经网络框架,图像特征是从大数据中自动学习得到,而且神经网络的结构深由很多层组成,通过重复利用中间层的计算单元来减少参数,在特征汇聚阶段引入图像中目标的显著信信息,增强了图像的特征表达能力。通过在图像层次稀疏表示中引入图像显著信息,加强了图像特征的语义信息,得到图像显著特征表示,通过实验测试,效果比传统的图像分类算法预测的准确度有明显的提升。

1 基于卷积神经网络的图像分类方法

1.1 人工神经网络

人工神经网络(Artificial Neural Network, ANN)是描述生物神经网络运行机理和工作过程的抽象和简化了的数学物理模型,使用路径权值的有向图来表示模型中的人工神经元节点和神经元之间的连接关系,之后通过硬件或软件程序实现上述有向图的运行[1]。目前最典型的人工神经网络算法包括:目前最典型的人工神经网络有BP网络 [2]Hopfield网络[3]Boltzmann机[4]SOFM网络[5]以及ART网络人工神经网络[6],算法流程图如图1所示[7]。

1.2 卷积神经网络框架的架构

Caffe是Convolutional Architecture for Fast Feature Embedding的缩写[8],意为快速特征嵌入的卷积结构,包含最先进的深度学习算法以及一系列的参考模型,图2表示的是卷积神经网络结构图。Caffe深度学习框架主要依赖CUDA,IntelMKL,OpenCV,glog软件以及caffe文件。本文使用的各个软件版本说明,如表1所示。

Caffe深度学习框架提供了多个经典的卷积神经网络模型,卷积神经网络是一种多层的监督学习神经网络,利用隐含层的卷积层和池采样层是实现卷积神经网络特征提取功能,卷积神经网络模型通过采取梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练来提高网络的精度。卷积神经网络使用权值共享,这一结构类似于生物神经网络,从而使网络的复杂程度明显降低,并且权值的数量也有大幅度的减少,本文使用这些模型直接进行训练,和传统的图像分类算法对比,性能有很大的提升,框架系统训练识别基本流程如图3表示。

1.3 图像分类特征提取

卷积神经网络的结构层次相比传统的浅层的神经网络来说,要复杂得多,每两层的神经元使用了局部连接的方式进行连接、神经元共享连接权重以及时间或空间上使用降采样充分利用数据本身的特征,因此决定了卷积神经网络与传统神经网络相比维度大幅度降低,从而降低计算时间的复杂度。卷积神经网络主要分为两个过程,分为卷积和采样,分别的对上层数据进行提取抽象和对数据进行降维的作用。

本文以Caffe深度学习框架中的 CIFAR-10数据集的猫的网络模型为例,如图4所示,对卷积神经网络模型进行训练。CIFAR-10是一个标准图像图像训练集,由六万张图像组成,共有10类(分为飞机,小汽车,鸟,猫,鹿,狗,青蛙,马,船,卡车),每个图片都是32×32像素的RGB彩色图像。通过对数据进行提取和降维的方法来提取图像数据的特征。

2 实验分析

将猫的图像训练集放在train的文件夹下,并统一修改成256×256像素大小,并对猫的图像训练集进行标记,标签为1,运行选择cpu进行训练,每进行10次迭代进行一次测试,测试间隔为10次,初始化学习率为0.001,每20次迭代显示一次信息,最大迭代次数为200次,网络训练的动量为0.9,权重衰退为0.0005,5000次进行一次当前状态的记录,记录显示如下图5所示,预测的准度在98%以上。而相比传统的图像分类算法BP神经网络网络的收敛性慢,训练时间长的,网络的学习和记忆具有不稳定性,因而卷e神经网络框架在训练时间和预测准度上具有非常大的优势。

3 结束语

本文使用Caffe深度学习框架,以CIFAR-10数据集中猫的网络模型为例,构建小型猫的数据集,提取猫的图象特征信息,最后和目标猫图像进行预测,并和传统的图像分类算法进行对比,预测的准确率有很大的提升。

参考文献:

[1] 杨铮, 吴陈沭, 刘云浩. 位置计算: 无线网络定位与可定位性[M]. 北京: 清华大学出版社, 2014.

[2] 丁士折. 人工神经网络基础[M]. 哈尔滨: 哈尔滨工程大学出版社, 2008.

[3] McClelland J L, Rumelhart D E, PDP Research Group. Parallel distributedprocessing[J]. Explorations in the microstructure of cognition, 1986, 2.

[4] Hopfield J J. Neural networks and physical systems with emergent collectivecomputational abilities[J]. Proceedings of the national academy of sciences, 1982, 79(8): 2554-2558.

[5] Ackley D H, Hinton G E, Sejnowski T J. A learning algorithm for boltzmannmachines[J]. Cognitive science, 1985, 9(1): 147-169.

[6] Kohonenmaps T. Self-Organized Formation of Topologically Correct Feature Maps[J]. Biological Cybernetics,1982, 43(1): 59-69.

篇2

关键词:温室;卷积神经网络;自动控制;自适应

随着现代化农业生产技术的快速发展,作为农业现代化重要标志之一的温室控制技术[1]也面临着重大的技术改进。如何提高温室控制系统对温室环境的高效、准确控制,提高控制系统的智能化、网络化[2]程度,降低系统成本是目前需要重点改进的技术。针对目前温室控制系统对温室环境因子调节不够准确,控制系统成本高,智能化、网络化程度低的不足,文章综合考虑温室环境因素之间的相互影响对温室环境的影响,设计了一种应用嵌入式加单片机控制的基于卷积神经网络的温室智能监控系统。

1 系统总体设计

基于卷积神经网络[3]的温室智能大棚监控系统由四种下位机数据采集单元、数据传输线路、以及系统上位机三大部分组成,如图1所示。

在温室环境中,温度、湿度、光照强度、CO2浓度四个因素对作物的影响最大且很难合理有效的控制调节。文章研究以上四个环境因子之间的相互影响并对其进行科学的调节控制。本系统采用多个传感器[4]完成上述所需参数数据的采集。为了实时方便的监控大棚内各种环境参数,系统备有数据信息显示界面,由中央处理器通过显示接口外接一个LCD液晶屏,把数据采集单元(变送器)采集到的环境参数,经过打包、处理,通过RS-485衔接串口传送给中央处理器,以此显示大棚内环境参数的变化。中央处理器具备人机交互软件,在接收多个变送器的数据后,可以显示在用户界面上,并且根据收集来的数据通过内部的卷积神经网络程序来控制系统硬件驱动进行相应的操作处理。通过触摸屏上的按键可以对数据进行管理,还可以设定温度、湿度、光照以及CO2浓度的限值。路继电器以及相应的电路驱动模块控制相应的设备来调节温室内的环境参数。

2 系统硬件组成

本系统硬件由四种变送器[5]、上位机ARM920T为核心的嵌入式控制器以及单片机控制系统组成。这里面变送器的功能是把传感器收集来的信号(温度、湿度等)转变为可被控制器识别的电信号,传送给中央处理器。单片机系统通过串口连接各个驱动模块以及继电器来控制大棚内各个设备的状态。上位机嵌入式控制器把单片机传来的信息加工处理并且储存在SQlite中,完成对环境参数数据的实时采集以及分析,并且根据内部卷积自适应控制程序操控驱动模块采取相应的措施来维持温室最佳环境。

2.1 空馕率度变送器

主要技术参数:电源:5号电池,两节;功耗:工作电流,0.2mA,发射电流,15mA;温度精度:±0.5℃;湿度精度:±4.5%;

2.2 光照度变送器

主要技术参数:电源:取自“环境数据监控器”;通讯:RS485,与“环境数据监控器”相连;照度范围:0-200000lux

2.3 CO2变送器

主要技术参数:电源:取自“环境数据监控器”;通讯:RS485,与“环境数据监控器”相连;测量范围:0-10000ppm

2.4 单片机控制系统和嵌入式控制器

此部分通过内部设计好的程序控制温室内各种设备对种植环境参数“采集、存储、监测、分析、预警、控制”,是使系统能够精确测量6种参数的保证,根据6种环境参数的变化,利用卷积程序智能控制设施环境中的相应电器设备,满足不同作物对环境条件的具体要求。

3 系统软件设计

软件系统由单片机控制系统和嵌入式控制系统构成。

3.1 单片机控制系统

单片机控制系统部分主要功能是对天窗、遮阳网、喷淋装置等进行控制。

3.2 嵌入式控制系统

嵌入式控制系统的设计由动态显示模块、控制模块、数据库模块、通信模块四个部分组成。通过动态显示模块可以及时监控各环境因子的变化;控制模块可对整个系统进行操控;数据库模块是为作物生长环境的设定而积累数据,并且系统内部卷积神经网络程序利用这些数据作为输入来进行压缩卷积;通信模块是实现上位机和单片机之间的通信。

4 结束语

基于卷积神经网络的温室智能大棚监控系统,采用ARM加单片机的组合控制方式,虽然成本稍微较高,但避免了传统温室控制系统中对温室环境参数调节不够准确、控制系统成本过高、智能化程度低、以及专家系统的参数决定不准确等弊端设计等问题,集智能检测、通信技术、卷积神经网络、自动控制于一体,利用嵌入式技术进行环境参数的自动检测和可靠传递,运用神经网络算法对数据智能优化,再利用单片机进行自动控制,为一套高性能的自适应智能控制系统。

参考文献

[1]王宝金.农业专家系统应用技术展望[J].计算机与农业,2002(05).

[2]白涛,吴智铭,杨根科,等.网络化的控制系统[J].控制理论与应用,2004(04).

[3]张振山,高子恒,范建领.基于VB语言的神经网络专家系统设计与应用[J].计算机测量与控制,2008(08).

篇3

>> 用于脑运作分析的前向网络样本重组树生成算法研究 基于三角构成规则的加权有向网络拓扑生成算法 适用于网络渐进传输的多分辨率曲线生成算法 全排列生成算法比较分析 KenKen问题的生成算法研究 曲线生成算法的文献综述 基于列生成算法的集装箱班轮运输网络优化 基于全卷积神经网络的图像缩略图生成算法 传感器网络中一种基于编码的MAC生成算法 数据库关键词检索中候选元组集连接树生成算法的研究 基于分类随机算法的试卷生成算法研究 分析基于列生成算法的动车组检修计划优化 AOS自相似业务流等时帧生成算法的Matlab仿真分析 关于传统空间缓冲区生成算法的分析 基于Bresenham的直线快速生成算法 题库系统中试卷生成算法的改进 一种可用于脑神经网络分析的有向网络分解算法 形式概念演化生成算法 MPI通信代码自动生成算法 一种启发式双代号网络图自动生成算法 常见问题解答 当前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)

[30]谢勤.WAP算法连续化及其应用[C].毕业论文,2004.

[31]谢勤.一种可用于脑神经网络分析的有向网络分解算法[J].数字化用户,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)

[32]谢勤.一种可用于脑神经网络分析的有向网络分解算法[C].第八届海内外华人神经科学家研讨会论文集.北京:科学出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)

[33]谢勤.用于脑运作分析的前向网络样本重组树生成算法研究[C].电子技术与软件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)

(通讯作者:谢勤)

作者简介

谢勤(1982-),男,A南理工大学硕士,中国神经科学学会会员,工程师,近年在亚组委信息技术部完成核心信息系统――计时记分和成绩处理系统项目实施管理方面的工作,其中计时记分系统投资一亿。主要研究方向为计算机科学与工程、人工智能、神经生物学。

作者单位

1.广州市科技和信息化局 广东省广州市 510000

2.第16届亚运会组委会信息技术部 广东省广州市 510000

3.广州生产力促进中心 广东省广州市 510000

4.广州市科学技术信息研究所 广东省广州市 510000

5.广州市科技创新委员会 广东省广州市 510000

篇4

关键词:PCA算法;人脸识别;五级并行PCA模型;权重计算;均值滤波

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)19-0147-02

Research on Face Recognition System Based on Parallel PCA Algorithm

ZHAO Ya-peng

(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )

Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.

Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter

1 概述

随着智能终端设备(手机、Pad、门禁等)的不断发展,身份识别已经成为我们日常生活的重要组成部分,身份验证技术被广泛应用于各个领域,特别是人们对于个人隐私信息的保护,使得身份识别再次成为关注的焦点。人脸识别作为身份识别的重要手段之一,因其具有识别率高、采集性强、接受性高等特点,在身份识别的各类方法中具有独特的优势,成为了目前比较热门的研究领域。

目前,卷积神经网络(Convolutional Neural Networks)是图像识别领域最重要的研究热点,而且在语音识别领域也取得了不错的效果,但是卷积神经网络的整个训练过程比较费时,而且实现相对复杂,而基于PCA算法的人脸识别技术因其自身存在的许多缺陷,一直没有被广泛应用,但该方法实现简单、学习速度较快,因此,本文主要研究改进的并行PCA算法,以弥补传统PCA算法在人脸识别领域的不足。

本文提出的基于并行PCA算法的人脸识别技术,首先对原始图像进行预处理,如灰度归一化和中值滤波等操作,以消除图像噪声、光照等因素造成的影响,使得特征提取更加准确可靠。然后,通过5级并行PCA模型获取数据的不同特征矩阵,然后将训练图像和测试图像分别进行子空间的投影,利用欧氏径向基函数(Euclidean Radial Basis Function)进行人脸的匹配,最后根据训练得到的权值向量进行加权决策。本文通过ORL人脸数据库的仿真实验证明,该算法的效果明显好于PCA算法。

2 并行PCA算法

PCA(Principal Component Analysis)即主成分分析技术,PCA是基于K-L变换的统计学分析方法,是多元分析中常用的方法,其基本思想是将高维数据投影到低维空间,主要过程在于特征值的计算和矩阵的降维。将PCA应用于人脸识别时,首先将图像转化成矩阵向量,然后进行矩阵的奇异值分解(Singular Value Decomposition),将高维向量通过计算得到的特征向量矩阵投影到低维的向量空间,从而减少数据的计算量。

2.1 基于并行PCA算法的人脸识别流程

本文中提出的并行PCA算法,正是基于上述的PCA算法,通过建立5级的PCA算法模型同时进行数据特征的学习,使得最终的人脸识别准确率得到进一步的提高,具体的人脸识别流程如图1所示。

2.2 并行PCA算法的实现的步骤

2.2.1 人脸图像的预处理

首先,需要把ORL人脸数据数据库的所有训练图像大小进行归一化,并转化为像素矩阵,矩阵大小记为,为矩阵的行数,为矩阵的列数。之后利用均值滤波和灰度归一化进行图像的去噪处理,以消除光线等问题对图像造成的影响,以方便后期的特征提取等操作。

2.2.2 人脸图像的PCA降维

根据PCA的原理,可以将每一张图像看成是一个高维的向量,所有的图像可以看成是这个高维空间中的一点,PCA要做的就是找出另外一个尽可能多的反应图像特征的低维空间。

假如样本由n张大小为p*q的人脸图像组成,那么每一张图像可以保存为一列向量,向量维数是p*q,真个样本可以看成是一个行数为n,列数为p*q的矩阵记为矩阵A。

根据上述过程,首先求出矩阵A的协方差矩阵,然后求出协方差矩阵的特征值,选取前m个最大的特征值,然后求出对应的特征向量,组成一个特征矩阵。通常所说的“特征脸”就是这些特征向量,而特种功能矩阵就是“特征脸”空间或者说子空间。然后可以将每一张图片投影到该子空间,得到了每一张图像的投影矩阵(l*m)。

2.2.3 人脸图像的识别

对于待识别的图像,也可以看成是一列向量,投影到子空间得到一个投影矩阵,然后一一求出这个投影矩阵与样本图像投影矩阵最相似的。然而有可能该人脸不是人脸库中的,所以最相似的人脸也不一定是同一个人脸,还需要设置一个阈值来判断待识别人脸是否是人脸库中的。

人脸识别部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5级的PCA模型同时进行人脸识别这一操作,最后根据训练得到的权值向量进行决策,通过使用多个PCA模型,从而使得整个识别过程的准确率得到进一步的提升。

3 系统设计及实现

3.1 系统总体设计

本文中所提出的基于并行PCA算法的人脸识别系统,包括人脸图像采集模块、图像预处理模块、识别模块。人脸图像采集模块主要是采集训练图像数据和测试图像数据,并由原始图像提取出4幅与之对应的部分图像;图像预处理模块主要就是进行图像归一化和图像的去噪工作,图像的归一化包括大小归一化和灰度归一化,可以使用比较常见的直方图均衡化等技术,而图像的去噪可以使用中值滤波技术,以去除比较常见的高斯噪声等;人脸识别模块是基于5级相互独立的PCA模型进行特征值的学习和比对,而且通过训练得到的权值向量进行最终的是脸识别决策。整个系统的实现是基于Matlab进行仿真实验的,实验数据来自剑桥大学AT&T实验室创建的ORL人脸数据库。

3.2系统功能模块实现

3.2.1人脸图像采集实现

图像采集模块主要就是将存储在本地的图像文件通过Matlab的imread函数读入矩阵中,以方便后期的PCA操作,其核心语句为Image{t}=imread([[filepath,FilDir(ii).name],'\',ImDir{ii}(jj).name]);

使用上述语句即可读入训练数据和测试数据文件。

3.2.2 图像预处理模块

该模块的主要任务就是利用中值滤波和直方图均衡化进行图像的去噪工作,以消除不同光照和图像噪声的影响,提高准确率。其核心代码为:

S1=zeros(1,256);

for i=1:256

for j=1:i

S1(i)=GP(j)+S1(i);

end

end

S2=round((S1*256)+0.5);

for i=1:256

GPeq(i)=sum(GP(find(S2==i)));

end

3.2.3 识别模块

图像经过之前的预处理之后,需要将图像矩阵转化为列向量,一幅图像就是一列向量,整个训练图像构成了整个特征空间矩阵,测试图像也会转化为一列向量,之后会利用矩阵之间的运算进行图像的分析计算。识别模块的工作就是根据测试图像和之前所有的训练数据进行对比,查找到与之最相似的图像,实验的结果如图2所示。

4 结论

PCA算法作为传统的人脸识别算法,因其自身存在的许多缺陷而没能发挥较好的作用,但是其自身具有其他算法所不具有的特点,本文设计的并行PCA算法虽然是基于PCA算法,但是借鉴了卷积神经网络的多层结构,而且使用加权操作进行最终人脸识别的决策。基于ORL人脸数据库的测试结果表明,该并行PCA算法的准确率和鲁棒性均得到了进一步的提升,与其他的单独PCA算法具有十分明显的优势。

参考文献:

[1] 张利芳. 基于PCA算法的人脸识别系统研究[D].太原:中北大学,2015.

[2] 杨海燕,蒋新华. 基于并行卷积神经网络的人脸关键点定位方法研究[J]. 计算机应用研究, 2015, 32(8): 2517-2519.

[3] 杨颖娴. 基于PCA算法和小波变换的人脸识别技术[J]. 微电子与计算机, 2011, 28(1): 92-94.

[4] 段宝彬,韩立新. 改进的卷积神经网络及在碎纸拼接中的应用[J]. 计算机工程与应用, 2014, 50(9): 176-181.

篇5

著名的人工智能围棋程序AlphaGo在2016年3月与韩国顶尖围棋高手李世h进行人机大战,并以4:1的总比分获胜。与李世h的对决让世界看到了人工智能的无限潜力,而到了2016年岁末,AlphaGo的进击版更是通过名为Master(“大师”)的账号,在网络上与中韩高手连番过招,以连赢60场的成绩令人惊叹。

在创造这一前所未有围棋奇迹的背后,是一支充满了智慧和活力、用数字构建未来的团队――DeepMind。

在伦敦国王十字火车站旁边一座不起眼的建筑里,藏着这样一家潜力无限的公司DeepMind(深度思维),该公司努力将机器学习和人类系统神经科学的先进技术结合,发展人工智能深度学习,建立强大的通用算法,将这种技术与游戏、医疗等多项实用产业结合。谁也不曾想到,一家成立于2010年的年轻初创公司会是世界两大科技巨头――谷歌和脸书竞相争夺的宝物。最终谷歌获胜,2014年,谷歌公司以4亿英镑的高价将DeepMind收归麾下,该公司正式成为谷歌旗下人工智能领域探索的排头兵。

谷歌和书已经在机器学习和人工智能领域走在世界最前沿了,那么,这家公司到底存在着怎样的价值,吸引了这些行业巨头的注意呢?

谷歌招揽的超强大脑

DeepMind可以说是一个智库集合,集结了400余名优秀的计算机科学家和神经学专家。下面这些人物可谓是DeepMind 团队精英中的精英。

德米斯・哈萨比斯

身为DeepMind创始人之一,德米斯・哈萨比斯可以说是整个公司的核心人物。哈萨比斯1976年出生于英国伦敦,4岁开始下国际象棋,13岁时就已经获得国际象棋大师头衔,15岁时,他连跳两级,提前从高中毕业。1993年,17岁的哈萨比斯进入剑桥大学学习计算机专业,同年,他依靠自己开发的游戏获得了某游戏设计比赛的亚军,进入顶尖游戏公司“牛蛙”实习,并参与开发了在全球风靡一时的虚拟游戏《主题公园》。

自1999年至2003年,哈萨比斯连续5年参加“国际智力奥运会”,连夺5次冠军,可谓是“地球上最聪明的男人”。2005年,29岁的哈萨比斯重新走进学校,在英国伦敦大学攻读神经科学博士学位,潜心研究负责记忆、学习、空间导向的大脑海马体。2011年,35岁的哈萨比斯结合自己游戏设计、计算机编程和神经科学研究经验,成立DeepMind科技公司,专注研究模仿大脑的人工智能系统。

黄士杰

AlphaGo设计团队的另一位杰出人才是来自台湾的黄士杰博士。黄士杰本科就读于台湾交通大学,研究生和博士在台湾师范大学研习。他从小热爱围棋,是个业余六段围棋选手,在台湾师范大学读书时就曾经在学校创办围棋社。大学期间,黄士杰醉心研究围棋软件开发,他设计的软件参加国际电脑奥林匹克竞赛,获得19路电脑围棋金牌,这个程序甚至击败了当时围棋人工智能领域公认最强的程序“Zen”,在业内引起极大的轰动。随后,他进入加拿大阿尔伯塔大学继续围棋程序研究。在博士和博士后阶段,他深入研究蒙特卡洛树搜索技术,后来将其运用在AlphaGo的走棋程序当中。

大卫・西尔弗

大卫・西尔弗是哈萨比斯在剑桥大学读书期间认识的朋友,计算机专业的他常年霸占着专业第一的宝座。在校期间,他还教会了哈萨比斯多种棋类游戏的玩法,包括围棋。1998年,哈萨比斯创立游戏公司Elixir Studios,西尔弗作为联合创始人之一,在这间公司担任首席技术官和主程序设计师。2004年,他进入加拿大阿尔伯塔大学攻读博士学位,研究人工智能增强学习。2013年,西尔弗重新与哈萨比斯会合,加入DeepMind团队,以增强学习技术助力AlphaGo的设计和程序优化。

除了上面这些人,DeepMind中还有诸多学界执牛耳者,在神经科学、计算机科学、卷积神经网络研究等方面人才济济。DeepMind简直就是一群超级极客组合而成的深度学习全明星战队。

“大师”是怎样炼成的

DeepMind的AlphaGo在围棋棋局上出尽风头,让世界级的围棋大师们为之惊叹。围棋规则看似简单,但棋局变化却相当多,在很长的时间里,围棋都被视为人工智能开发领域的一座难以攻克的圣杯。围棋第一步361个点,下第二步有360点,如果要下到底,大概有10360种下法,即便运算量惊人的计算机也很难找到最佳解法。

AlphaGo和传统的计算机围棋游戏完全不同,可以进行深度学习。它并非只是按照棋局库的固定章法来照本宣科,而是能够进行自我学习和提升,以现有数据库为基础主动创造新棋路,甚至能够走出让专业棋手摸不着头脑的步法。

DeepMind主攻人工智能的意识,让机器理解自己的任务的同时,也能够理解环境或别人在做什么,并据此作出反应,完成决定。首先,需要让计算机“懂得”棋局的规则,程序员将围棋以计算机语言描述出来。比如在19×19的棋盘上的361个交叉点进行定义。

人类在下围棋时,除了谋篇布局,精妙计算之外,更重要的是基于棋手经验的“直觉”在帮助棋手思考,为棋手指路。AlphaGo也运用了这种方法,与深度学习结合,利用“策略网络”与“价值网络”优化人工智能的走棋。策略网络可以判断出最佳棋路,就好像人类用直觉来下出好棋一样。当然,开发团队也会事先给AlphaGo阅读各种不同的参考棋谱。至于“价值网络”则能帮助计算机在搜寻一个点之后,判断盘面局势、优势大小。

所以,当计算机懂得走棋的任务后,它可以再随机选择落点进行走棋训练,对取胜率较高的落点展开深入研究,并通过观察上百万局棋谱来丰富计算机的走棋数据库。综合这些信息后,计算机能够反复进行左右互搏的对弈训练,强化学习,自我精进。而且,通过结合神经科学的计算机深度学习,利用蒙特卡洛树搜索和卷积神经网络等技术手段,计算机可以改进现有的经验,创造独特的新经验,并将这些智慧结晶内化,成为几乎可以独立“思考”的超级围棋大师。

人工智能的“下半场”

篇6

在6月29日开幕的第21届中国国际软件博览会(简称软博会)上,中国科学院院士梅宏的一场主题演讲,引起了业界的普遍关注。梅宏院士在演讲中强调,“一切皆可编程,万物皆可互联,人类进入了软件定义的时代。”这个时代,从基础设施的视角来看是“互联网+”时代,从计算模式的视角来看是云计算时代,从信息应用的视角来看是智能化时代……但从使能技术的视角来看就是软件定义时代。软件本身经历了软硬件一体化阶段(软件作为硬件附加品存在)、产品化和产业化阶段(独立的产品和巨大的产业),到今天进入了网络化服务化时代,扩展到互联网环境,已经渗透到了社会生活的方方面面。

在软博会现场,ofo展台现场工作人员介绍,“ofo不仅是共享单车公司,更是软件公司。”展会期间ofo不仅展示了新一代支持NB-IoT技术的智能锁终端系统,更亮出硬件系统背后的软件实力:智能锁返回的定位信息会在后台形成热力图,系统记录热力图实时变化,并运用深度学习中的卷积神经网络技术预测用户的出行需求,从而驱动单车供给最大限度接近用户需求,提高用户体验。共享单车是软件改变城市交通的一个典型案例。近期无人驾驶正如火如荼,未来私人汽车和公共汽车都可能会退出历史舞台,就像今天大家不会每家每户购买自行车一样,人们将不再购买小轿车,但将拥有更加高效、直达、个性、智能的出行服务,这就是软件驱动的城市交通革命,也就是软件定义城市的开始。

在工业转型升级的关键阶段,工业软件、智能制造自然成为本届软博会的热点,不仅“软件定义智能制造馆”在展览现场异常醒目,一场“软件定义智能制造”的高峰论坛,专家们的精彩观点更是引发业界普遍思考。工信部信息化与软件服务业司副司长安筱鹏指出,软件定义了产品和功能、企业的生产方式和企业的信息能力。就企业而言,重点在于提高企业资源优化配置的效率,所以资源优化是主要目标。这就要求企业把工业互联网平台作为软件定义制造业的关键,并实施三大工程:培育互联网平台、促进更多中小企业业务系统迁移到互联网平台、实施资源回流,形成更多APP,让工业互联网平台和基于平台上的应用形成一个双向迭代的机制。专家们认为,“软件技术已成为新一轮工业革命的核心竞争力!”据介绍,波音公司在波音787的研制中用了8000多种软件,其中市面上可以买到的CAD等工业软件不到1000种,剩下的7000多种是波音公司的私有软件,飞机设计的知识、技术、方法就在这7000多种软件里,这7000多种软件市面上看不见,但这些软件恰恰是波音公司的核心竞争力。毫无疑问,工业“软化”已经成为不可阻挡的大趋势。

步入软件定义时代,我们如何应对?也许梅宏院士给出的四条建议值得业界同仁认真把握:一是深刻理解软件定义时代的内涵和本质,坚持创新驱动发展战略,全面贯彻软件定义理念;二是切实构建自主可控的软件产业体系,助力社会经济的转型升级;三是推进开源软件生态建设,构建产、学、研、用新体系;四是营造良好的社会环境,大力培育优秀软件人才。

篇7

关键词:人工智能;引擎;大数据;CPU;FPGA

DOI:10.3969/j.jssn.1005-5517-2017-2.006

1 2016年人工智能迎来了春天

2016年人工智能(A1)进入了第三个。2016年3月9-15日,谷歌AlphaGo(阿尔法狗)以4:1的成绩击败世界围棋冠军李世石职业九段,意义非常重大。因为过去机器主要做感知,现在出现了认知,这是人工智能的关键所在。

8个月后,2016年12月29日~2017年1月4日,AlphaGo的升级版――谷歌Master(大师)在30秒快棋网测中,以60胜0负1和的成绩,横扫柯洁、古力、聂卫平、朴廷桓、井山裕太等数十位中日韩世界冠军与顶级高手。从此以后,也许人类以后就没有和Master进行围棋比赛的机会了!除了围棋,人工智能下一步将在国际象棋、中国象棋等棋类方面发展。

扑克牌方面,专家水平的人工智能首次战胜一对一无限注德州扑克人类职业玩家,而且DeepStack让机器拥有知觉。

人工智能还能玩游戏。其意义很重大,平时环境中很难得到一些数据,因为游戏相当于虚拟社会,例如“星际争霸2”是复杂的虚拟社会,如果人工智能在这个虚拟社会中能战胜人,这将是非常了不起的,未来可涉及到高级决策,在军事上很有用处。2016年11月5日,谷歌DeepMind宣布与暴雪合作开发人工智能,挑战实时战略视频游戏“星际争霸2”。这件事情的意义非常重大。下一步可以用于军事上的高级战略决策。

无人驾驶方面,2016年11月15日,“在第三届世界互联网大会”期间,18辆百度“云骁”亮相乌镇子夜路,在3.16公里的开放城区道路上自主行驶。2016年特斯拉Autopilot 2.0问世,该软件只需要八千美元,就可让软件驾驶汽车。所有特斯拉新车将安装“具有完全自动驾驶功能”的该硬件系统,并可通过OTA(空中下载技术)进行软件升级;自动驾驶功能从L2(二级,半无人驾驶)直接跳跃到L4/L5();2017年底之前,特斯拉车将以完全自动驾驶模式从洛杉矶开往纽约。Uber提出在城区大范围无人驾驶出租车试运行,Uber 2016年9月14日在美国匹兹堡市推出城区大范围无人驾驶出租车免费载客服务并试运行,先期已测试近2年,说明无人驾驶真正落地了。

为何无人驾驶很重要?因为人工智能是无人驾驶的核心。除了百度、特斯拉、Uber,谷歌Waymo也在做自动驾驶测试。此外,沃尔沃、福特、宝马、百度、英特尔等全球约20多家企业公开宣布,4年以后的2021年将会是无人驾驶/自动驾驶元年,部分5AE L4车将会实现量产。

计算机视觉

针对ImageNet ILSVRC测试比赛的1 000种物体识别,Deep CNN超过了人类的识别能力。人是5.1%(如图1),2016年2月23日谷歌人工识别的评测是3.08%。ImageNetILSVRC中有1000种物体,例如猴子、马、飞机、坦克等约1500万张照片、包含2.2万类种不同物体。深度学习一般能做到52层,极深度学习(very deep lea rning)现在已经做到1000层。

在ILSVRC 2016国际评测中,包括视觉物体检测、视觉物体定位、视频物体检测、场景分类、场景解析等性能均有提高。值得一提的是,在此次大会上,中国团队大放异彩,几乎包揽了各个项目的冠军(图2)。

人工智能语义分割

基于全卷积神经网络FCN的路面/场景像素级语义分割取得重要进展。为此,我们可以分割大部分道路。

人工智能唇语专家

看电视时把声音关掉,靠嘴唇说话的变化来识别谈话内容,这种能力机器识别率已经超过人类。例如2016年12月,英国牛津大学与谷歌DeepMind等研发的自动唇读系统LipNet,对GRID语料库实现了95.2%的准确率;对BBC电视节目嘉宾进行唇语解读,准确率为46.8%,远远超过专业的人类唇语专家(仅为12.4%)。

人工智能人脸识别

人脸识别可以达到产品级别,例如支付宝的刷脸成功率超过了人类。如图3,人的水平为97.40,百度为99.77。因此可以进行产品体验。2017年1月6日,百度人工智能机器人“小度”利用其超强人类识别能力,以3:2险胜人类最强大脑代表王峰。

语音识别

目前的社交新媒体和互动平台中,Al虚拟助手和Al聊天机器人正在崛起。一天,美国GIT(佐治亚理工大学)的一个课堂上来了一位助教,教师讲完课后说:“大家有问题就问助教吧”。这位助教原来是个会眨眼睛的机器人!这时学生们才知道每天网上给他们答疑解惑的是人工智能,此前学生们也感到很吃惊,这位助教非常敬业,晚上还在发Email。

人工智能语音合成

指从文本声音到真实声音,可以自动翻译成英文。2016年9月19日,谷歌DeepMind推出WaveNet,实现文本到美式英语或中国普通话的真实感语音合成。

人工智能速记员

包括语音识别和NLP(自然语言处理)。2016年10月17日,微软的语音识别系统实现了5.9%的词错率(WER),媲美人类专业速记员,且错误率更低;中国科大讯飞也有语音输入法。

人工智能翻译

中国人往往从小学到读博士都在学英语。现在,谷歌、微软和百度等公司在做人工智能翻译。以谷歌为例,2016年9月27日,谷歌的神经机器翻译系统(GNMT)实现了多语种翻译,较之传统方法,英译西班牙翻译错误率下降了87%,英译汉下降了58%,汉译英下降了60%,已接近人工翻译的水平。也许今后学外语没那么重要了,人们可戴着耳机,耳机能直接翻译成各语言。

人工智能对抗训练

Goodfellow(2014)提出的生成式对抗网络(GAN),为半监督学习/举一反三式的学习发展提供新思路,2016年发展迅速。目前是监督式学习,需要依靠大数据,因此大数据需要非常完备。而人是举一反三式的学习。例如人没有见过飞机,看过几张照片就可以把世界上所有飞机都认出;目前的大数据驱动的深度学习方式,是把世界上所有飞机照片都看过才行。现在进行举一反三的半监督或无监督式学习,思路是采用对抗的方法,一个网络造假,另一网络鉴别照片是真是假,通过对抗式的学习来共同进步(如图4)。

人工智能引擎

芯片三巨头

英特尔、英伟达和高通全部转到了人工智能上。为此英伟达的股票涨了几倍。英特尔也在大搞人工智能。高通为了进入人工智能领域,收购了恩智浦,恩智浦此前收购了飞思卡尔。

现在出现了基于超级GPU/TPU集群的离线训练,采用超级GPU/TPu集群服务器,例如英伟达的深度学习芯片Tesla P100及DGX-1深度学习计算机,谷歌数据中心的TPU。

终端应用采用GPU/FPGA-based DPU,例如英特尔Apollo Lake A3900的“智能互联驾驶舱平台”,高通骁龙的820A处理器。

通用人工智能与认知智能

1997年,lBM的超级电脑程序“深蓝”击败国际象棋大师加里・卡斯帕罗夫;2011年2月,IBM的自动问答系统在美国最受欢迎的智力竞答电视节目“危险边缘”中战胜了人类冠军:IBM的沃森医生在某些细分疾病领域已能提供顶级医生的医疗诊断水平,例如胃癌诊断。

可见,1.AlphaGo和Master等已可横扫人类围棋职业顶尖高手,下一步,将能下中国象棋等所有棋类,此外还可以打牌、炒股等,即什么都可以干,是强人工智能。2.人工智能已成为无人驾驶汽车商业落地的关键。3.视觉物体识别、人脸识别、唇语识别等在许多国际公开评测中,达到或超过人类的水平;4.速记等语音识别已可媲美人类;5.包括神经机器翻译在内的自然语言处理,性能也大幅度提升;6.生成式对抗网络得到极大关注。

目前,发展通用人工智能成为普遍共识。

2 社会极大关注

未来,可能很多工作就会消失了。

人工智能引起社会的极大关注和热议,人工智能发展很快;而且人工智能的学习速度快,很勤奋,未来可以达到人类所有的智能,这时到达了从强人工智能到超越人工智能的奇点;人工智能有超越人类智能的可能;理论上,人工智能还可以永生。

这也引起了很多人们的担忧。奇点到来、强人工智能、超人工智能、意识永生、人类灭绝等耸人听闻的观点出现,引起包括霍金、盖茨和马斯克等在内的世界名人对人工智能发展的担忧。在每年的世界人工智能大会上,专门有一个论坛探讨人工智能与法律、伦理及人类未来的会场。

现在,人工智能工业的OpenAI成立。

2016年全社会对人工智能的极大关注,可能是2016年AI的最大进展!

在半监督/无监督学习、通用人工智能方面,人工智能具有举一反三,并有常识、经验、记忆、知识学习、推理、规划、决策,甚至还有动机。这最后一点有点恐怖,人是有意识和动机的,机器做事也有动机,太可怕了。

智能学习进步很快,AIpha Go八个月后就可以战胜所有围棋手,因为它能每天24小时学习、不吃不喝地学习,比人强多了。

因此,在经历了60年“三起两落”的发展后,以深度学习为主要标志的人工智能正迎来第3次伟大复兴,这次引起社会尤其是产业界高强度的关注。因为上世纪60年代和80年代,人工智能没有达到这样的水平。

硅谷精神教父、预言家凯文・凯利说,未来人工智能会成为一种如同电力一样的基础服务。斯坦福大学推出了“人工智能百年研究”首份报告――《2030年的人工智能与生活》。

3人工智能上升为国家发展战略

有人认为第四次工业革命即将由人工智能与机器人等引爆。英国政府认为,人工智能有望像19世纪的蒸汽机革命那样彻底改变我们的生活,甚至人工智能给人类社会带来的变革与影响,有可能远远超过蒸汽机、电力和互联网带来的前三次工业革命。

智能制造、无人驾驶汽车、消费类智能机器人、虚拟助手、聊天机器人、智能金融、智能医疗、智能新闻写作、智能律师、智慧城市等可能被人工智能代替。人工智能将无处不在,可望替换人类的部分脑力劳动,一些职业会被取代或补充,一些新的行业又会诞生,例如18世纪出现了纺织工人,之后汽车代替了马车等。因此,我们将经历从“互联网+”到“人工智能+”。

中国“互联网+”与“中国制造2025”国家发展战略的实施,对人工智能的巨大需求在迅速增长。未来2-5年,人工智能应用与产业发展将迎来爆发期。

中国政府在《“互联网+”人工智能3年行动实施方案》提出:计划在2018年形成千亿级人工智能产业应用规模。201 7年1月10日,科技部部长万钢称,将编制完成人工智能专项规划,加快推进人工智能等重大项目的立项论证。

美国政府在2016年10月13日出台了《为人工智能的未来做好准备》的报告,提出了23条建议措施。同一天,美国政府又出台了《国家人工智能研发战略规划》,提出了7大重点战略方向。美国参议院于2016年11月30日召开了关于人工智能的首次国会听证会,主题是“人工智能的黎明”,认为中国是对美国人工智能全球领导地位的一个真正威胁。在2016年12月20日美国白宫了《人工智能、自动化与经济》报告,考察了人工智能驱动的自动化将会给经济带来的影响,并提出了国家的三大应对策略方向。可见,奥巴马把人工智能看作其政治遗产之一(注:另一个是Cyber空间)。

英国政府2016年12月了《人工智能:未来决策的机遇与影响》的报告,关注人工智能对社会创新与生产力的促进作用,论述如何利用英国人工智能的独特优势,增强英国国力。

日本政府2017年开始,要让人工智能与机器人推动第四次工业革命。

4 我国对策

应以深度卷积神经网络为核心,全面开展计算机视觉、语音识别和自然语言等人工智能产品的开发与大规模产业化应用。这需要大数据、计算平台/计算引擎、人工智能算法、应用场景等飞速发展,另外还需要资源、资金、人才。在方法上,选定垂直细分领域最重要。

面向若干细分垂直领域,建立大数据中心。实现大数据采集、清洗、标签、存储、管理与交易,建立大数据源公共基础设施与垂直领域知识库。专有大数据是人工智能产业制胜的关键和法宝。中国企业必须开始特别关注大数据的采集与利用。其重要性如同原油―样,跨国企业视之为战略资源!

强力开展人工智能芯片与硬件平台的研发。包括基于FPGA的深度学习芯片;类脑芯片与忆阻器件;建立国家级人工智能超算中心。

篇8

关键词:句子相似度计算;Word2Vector;编辑距离;Edit Distance

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2017)05-0146-02

1 背景

句子的相似度计算在自然语言处理中有着十分广泛的运用。例如,机器翻译中相似性文档的判断和提取,在问答系统中相似性问题的匹配或者问题与答案之间的匹配判断等。对于这个相似度的刻画,主要分为几个不同的等级,具体为语法层面的相似度,语义层面的相似度,与语用层面的相似度。其计算难度也是层层递进。在具体的应用中,只要能达到语义层面的判断基本上就可以达到基本的需求了。目前对句子的语义层面的相似度计算方法主要有基于相同词汇的方法,使用语义词典的方法、使用编辑距离的方法,以及基于统计的方法等。其中,基于相同词汇的方法比较简单,但是其缺点也十分的明显,就是对于句子中同义词的判断存在不足。相对于基于相同词汇的方法,使用语义词典可以很好的处理句子中同义词的情形,但是语义词典也存在着需要不断地更新和维护词典库的缺点,而且如果只是单一的使用语义词典会缺乏对句子本身结构的分析,对最后的计算结果也有较大的影响。编辑距离一般使用在对句子的快速模糊匹配上,由于其规定的编辑操作有限,而且对于同义词的替换也缺乏判断,因此最后的准确率也不是很理想。本文基于编辑距离的方法,利用深度学习模型Word2Vector来增强其编辑操作的灵活程度,从而克服了单纯使用编辑距离对句子的语义理解不足的缺点。本文的第一部分主要介绍了相关的算法和基础知识。第二部分主要描述了基于Word2Vector与编辑距离的句子相似度计算方法,第三部分给出了测试结果以及对该方法的优缺点讨论,最后第四部分是结语。

编辑距离方法是指两个句子间,由一个句子转换到另一个句子所需的最少的编辑操作次数。这里的编辑操作共有“插入”、“删除”和“替换”三种。例如:

我是中国人 -> 你是中国人 (把“我”替换为“你”)

我是中国人 -> 我爱中国人 (把“是”替换为“爱”)

我是中国人 -> 是中国人(把”我”删除)

利用这种方法对两个句子进行相似度比较就像引言中分析的,其优点是简单,速度快。但是缺点也十分明显,由于编辑操作缺乏一定的灵活性,使得其无法进一步的判断语义层面的含义,比如同义词,同类、异类词等,因此,该方法适合于句子间的模糊匹配。

2.2 Word2Vector

Word2Vector是一种将词汇表示转化为空间向量的技术,主要利用了深度学习的思想对语料进行训练,通过将句子进行分词,然后将每个词汇映射成N维的向量,这样可以将两个词汇的相似度比较转化为对两个向量的相似度比较,可以利用cosine 相似度、欧氏距离等数学工具对词汇进行语义分析,其采用了一个具有三层的神经网络,并且根据词频用Huffman编码技术将相似词频词汇的隐藏层激活的内容出于大致相同的位置,如果哪个词汇出现的频率很高,那么它激活的隐藏层的数目就很少,通过这样处理可以使得计算的复杂度大幅度的降低。最后,通过Kmeans聚类方法,将相似的词向量聚在一起,最后形成了Word2Vector的词聚类模型。

Word2Vector的输出结果可以利用在NLP的很多地方,比如聚类,查找一个词的同义词,或者进行词性的分析等。

3 基于Word2Vector与编辑距离的句子相似度计算方法

3.1 问题描述

3.3 按照Word2Vector的词向量距离来定义编辑操作的系数

由Word2Vector训练好的模型会将各个词汇生成一个与其相对应的词向量,计算两个词汇对应的词向量便可以知道这两个词汇的相似度。如果值为1,说明这两个词汇完全一致,如果为0,则表示完全没有关系。

这里考虑一种情形,当利用替换操作进行两个词汇的替换时,如果两个词汇意思是相近的,那么它的替换代价会相应的低一点,反之,则会相应的高。举个例子:

我爱故宫

我爱天安门

我爱苹果

这三个句子我们可以知道1,2两句更加的接近,因为它代表的都是景点。因此待匹配的句子1应该会匹配上句子2。为了将词语的相似度考虑进去,这里引入Word2Vector的词向量来改进替换操作的系数。

假设两个词汇的向量距离为k,k∈[0,1]。考虑到k的值的大小与编辑距离的大小是相反的,这里将更新后的替换操作的系数设定为1/(1+k)。这样更新后的替换操作会根据不同词汇之间的距离发生变化,变化范围在[0.5,1]之间。而且这个值的范围不会打破编辑操作里面的平衡,即替换=插入+删除。更新后的编辑距离公式L=a+1/(1+k)*b + c。

4 实验及结果分析

为了验证改进的编辑距离算法的有效性,本文自行构造了实验所需的句子集合,本文所用的测试句子一共有400句。其中380句为来自各个不同领域类型的句子。比如,体育,娱乐,军事,文化,科技,教育等。另外20句为没有意义的干扰句。这里从380个句子中挑选100句作为参考句子,通过人工评价,比较测试结果。这里评价按照结果的质量分为3类:1、准确,2、相关,3、不相关。其中查准率P的定义如下所示:

通过实验可以发现,经过改进的编辑距离句子相似度匹配算法在准确度上有了一定的提高和改进,其中原因便是调整后的编辑距离算法将同义词近义词等通过词向量给计算出来。但是在实验中也发现了一个现象,就是相对来说判断准确的句子都是一些短小句,即长度不是很长的句子,而判断不相关的句子明显长度要更长一些。事实也是如此,当句子的长度较长时,通过分词将一个句子分为一个个短的词汇来利用词向量来理解会破坏句子的整体含义。

5 结束语

本文通过利用Word2Vector模型将词向量计算引入到编辑距离算法的编辑操作中,从而使得改进后的编辑算法对句子具有一定的语义理解能力。通过实验也比较好的验证了此方法的有效性,尤其是对近义词与同义词的理解上有了很大的提升,而算法本身的时间复杂度相较于编辑距离算法则没有改变多少。

另外,通过实验也发现,此方法对短句子的效果非常的明显,而对于一些长句则还是具有较大的误差。从对句子本身的分析角度上看,还需要通过对句子进行建模才可以达到比较好的理解匹配。

参考文献:

[1] 李彬, 刘挺, 秦兵, 等. 基于语义依存的汉语句子相似度计算[J]. 计算机应用研究, 2003, 20(12): 15-17.

[2] 孔胜, 王宇. 基于句子相似度的文本主题句提取算法研究[J]. 情报学报, 2011, 30(6): 605-609.

[3] 贾明静, 董日壮, 段良涛. 问句相似度计算综述[J]. 电脑知识与技术: 学术交流, 2014 (11): 7434-7437.

[4] 贾熹滨, 李宁, 靳亚. 用于文本情感极性分析的动态卷积神经网络超限学习算法[J]. 北京工业大学学报, 2017, 43(1): 28-35.

[5] Xu G, Cao Y, Zhang Y, et al. TRM: Computing Reputation Score by Mining Reviews[J]. 2015.

[6] 万翔, 刘挺, 秦兵, 等. 基于改进编辑距离的中文相似句子检索[J]. 高技术通讯, 2004, 14(7): 15-19.

[7] 汪卫明, 梁东莺. 基于语义依存关系匹配的汉语句子相似度计算[J]. 深圳信息职业技术学院学报, 2014 (1): 56-61.

[8] 裴婧, 包宏. 汉语句子相似度计算在 FAQ 中的应用[J]. 计算机工程, 2009, 35(17): 46-48.

篇9

关键词: 图像处理; Canny算子; DSP优化; 图像快速分割

中图分类号: TN919?34 文献标识码: A 文章编号: 1004?373X(2014)06?0008?04

0 引 言

Canny算子属于图像处理和计算机视觉中的重要研究领域――边缘检测问题。边缘检测对后续的图像分析和识别意义重大。例如,在镜检细胞图像识别中,边缘检测就是要把从采集到的图像中各种有形成分准确分离出来,进入后端进行特征建模与识别,边缘检测是整个系统的关键和核心,承上启下,好的检测效果是系统实现前提[1],快速检测是智能系统的内在要求。

John F.Canny将边缘检测问题归结为检测图像梯度函数的极大值问题,提出了边缘检测最优算法的三个评价准则,并基于该准则开发了一种多级边缘检测算法。目前,Canny算子在生物医学,智能监控,航空航天等领域应用广泛,并由学者和工程人员不断加以改进和优化。例如韩慧妍等针对高斯滤波器的方差以及滞后阈值的选择需要人工指定的问题,将形态学平滑和Otsu(最大类间方差法)方法引入Canny算子[2]。洪运国针对间断的边缘问题,提出矩量保持法来求取最优阈值等[3]。

众多Canny的改进都体现在算法思想上,并在Windows操作系统和通用PC中得到广泛应用,然而,在嵌入式平台如DSP加以应用时,很少细致深入地研究实用有效的优化方法使得Canny算子在DSP平台高效率运行。例如金泽安在其学位论文中,详尽设计了基于DSP的红细胞图像处理系统,但在图像处理算法性能优化方面只做了粗略的优化方法介绍[4]。通过详细分析Canny算子原理基础上,结合DSP特性,将矢量化打包数据处理在高斯滤波过程加以应用,提高运算并行性,并在边缘计算过程中,灵活地使用对齐和非对齐的宽存储器访问,推导出梯度和方向的等价计算公式,四邻域、八邻域的等价的连续点四领域、八邻域模板。

1 Canny算法实现步骤

经典著名的Canny准则是指:

(1) 完全性。对边缘检测的错误率尽可能低。

(2) 定位性。检测结果和实际情况尽可能接近。

(3) 最小性。图像中的边缘应该只被检测一次[5]。

基于边缘检测效果的三准则,结合原始Canny算子及改进思想,实现了显微细胞图像Canny分割,算法思想和步骤如下描述:

Step 1:用二维高斯滤波模板进行卷积以消除杂点,采用的模板计算公式如下:

滤波过程即将原输入图像与高斯模板进行卷积,滤波长度依据参数sigma而定,用公式表示如下:

Step 2:计算差分图像。一般采用2×2邻域范围,原图中每一点水平方向和垂直方向的差分计算公式如下:

式中IG为差分图像的输入,即二维高斯滤波后的结果;Δx为水平方向差分;Δy为垂直方向差分。

Step 3:计算弧度和梯度,公式如下:

Step 4:对梯度幅值进行非最大值抑制。若某个像素的灰度值与其梯度方向上前后两个像素的灰度值相比不是最大的,那个这个像素置为255(白点),即不是边缘 。

Step 5:使用累计直方图计算两个阈值。凡是大于高阈值的一定作为边缘,像素点置0;凡是小于低阈值的一定不是边缘,像素点置255;若检测结果位于两者之间,检测其邻接像素中超过高阈值的边缘像素:存在则为边缘点,否则非边缘点[6]。

以上步骤结束,由输入的原图像得到一副二值边缘图。

2 Canny算子的DSP优化

在DSP平台编程实现和优化Canny算子时,需要根据特定处理器的特点来展开,主要参考数据总线宽度,核内功能单元、寄存器等。

2.1 TMS320C6678特性和优化概述

TMS320C6678在单芯片上集成8颗1.25 GHz C66X核,支持定点运算,字宽一般为16位;支持浮点运算,字宽可为32位、40位、48位、64位。每个核具有8个功能单元(.M1,.L1,.D1,.S1.,M2,.L2,.D2,.S2),2个寄存器组(A,B两组64个寄存器)和2条数据通路。每个C66X核的.M单元在每个时钟周期内能够执行以下定点操作:4个32×32 b乘法,16个16×16 b乘法,4个16×32 b乘法,8个8×8 b乘法, 4个16×16 b乘法和加减运算。.L和.S单元支持64 b操作数据,如此可以容纳多算术、逻辑和数据打包指令并行处理。还可以通过长型操作数,最长可达128位,完成双倍数据的转换[7]。

在DSP平台上,数据传输的设计是图像系统的关键环节,CPU处理任务时的速度很大程度都受到外部存储器的限制[8]。TMS320C6678片内存储器含寄存器、Cache、L2、共享存储器,访问速度快,然而容量却非常有限,当图像数据量较大时,无法将待分割的整幅图像和一些中间结果置于片内进行处理。例如对800×600、24位BMP图像数据处理,其大小为1.37 MB,考虑到C6678片内存储器的大小,分割的图像数据和中间结果分布在DDR,因此,在任务处理过程中,CPU直接访问外部存储器接口的情况下,频繁与外部存储器发生数据交互大大影响程序的执行效率。

针对以上问题,实现了基于矢量化打包数据处理实现预处理过程(高斯滤波)提高算法的并行能力,在分割过程(边缘计算)中灵活运用对齐和非对齐的宽存储器访问提高存储器读/写效率,另外,还参考的一般的优化方法,如避免跳转,展开不必要的循环等。

2.2 矢量化打包数据处理高斯滤波

高斯滤波是分割处理一个重要过程,在实现过程中,将输入图像与高斯模板进行卷积,横向滤波时的单个像素点的滤波的滤波结果示意图如图1所示,纵向过程与之类似。

采用乘累加容易实现高斯滤波,其伪代码如下(横向为例):

采用以上方式实现的高斯滤波,代码包含三重循环,代码前后相关性大,不利于编译器优化,每计算出单点的滤波结果,需要访存N(N为滤波器长度)。针对该过程,采用矢量化的打包数据处理对高斯滤波进行优化,其根本思想是利用TMS320C6678在一个时钟周期内能够执行多个乘法运算,从而将滤波展开成多操作并行的代码结构,另外,利用高斯模板的对称结构,将两次乘法运算优化为一次加法和乘法。具体实现步骤如下描述:

(1) 为更有效地读取数据,读取和存储必须向量化。待处理数据最好在内存空间连续存储,若不连续,采用额外的数据打包操作,准备好数据。

(2) 在读取数据时,需要将一次并行处理的数据全部读入,这一步需要采用宽存储器对连续数据进行访问,具体宽度根据需要并行的操作、处理器并行操作的能力、处理器单次最大访问宽度而定。

最后,将运算相关的指令合并成intrinsic函数[9},以充分利用C66x的特性。intrinsics函数直接调用某些汇编语句,其前缀以下划线表明,和普通函数调用方法相同。如_mpy2实现将输入的两个操作数的高低16位相乘,_swap4将操作数高低半字中的每一对字节分别做大端终结交换,_dopt2实现低16位乘积和高16位乘积相加[10]。实现的矢量化打包数据处理高斯滤波伪采用以上方法,分解了滤波长度带来的第三重循环,多次调用内联函数,执行效率高,充分利用C66x在一个周期内,完成多个16×16的乘法运算的性能,单像素结果需要进行7次乘累加的操作,可在一个周期内并行完成,以上优化思想和代码结构在DSP平台运行,极具优势。另外,进行纵向滤波处理,由于输入图像在内存一般采用按行优先存储,需要采用额外的数据打包处理,其他过程类似。

2.3 宽存储器访问计算边缘

宽长度存储器访问是指充分利用C6x系列DSP一次读取32 位数的特性,并利用一个指令周期能读取多个数据的特点在DSP处理过程中,尽可能多的将所需短字长操作数读入,如一次读入2×32 b,4×16 b,甚至8×8 b等,可成倍减少与外部存储器发生交互,是DSP优化过程中一个重要的优化手段。在实现C6678 DSP平台的Canny算法时,不止是在高斯滤波的处理过程中,计算图像梯度信息,进行非最大抑制等过程中也同样采用宽长度存储器访问,脱离传统的按单位像素交互图像数据的思维和编程方式,结合具体芯片的处理性能和应用程序要求实现和优化Canny算子,例如C6678甚至支持128 b的超长数据,在访问和保存中间图像结果时,具体采用的数据位宽需要结合系统对精度的要求,当用16位来表示梯度信息,即C语言中的short类型,采用64 b宽存储器访问,便推导出梯度计算公式的等价公式如下:

采用宽存储器非对齐数据访问可以从DSP内存中任意起始地址开始读取和存储2 B,4 B,8 B的数据,分别使用(&)_mem2_(const),(&)_mem4_(const),(&)_mem8_(const)函数。如此,便可以将图像处理领域中频繁使用的四邻域模板进行推导,处理具体任务时,将四领域模板升级为连续四点四邻区,连续八点四邻区,其示意图如图3所示。

图3(a)为四邻域模板示意图, (b)和(c)为分别采用4 B和8 B访问时,邻域模板示意图。对(b)和(c)图像进行处理的前提和依据是:连续4点的四邻域在内存存储中也是连续的(不包含边界),连续访问的4点,在物理位置上其相关邻点也连续。如此,可成倍节省外部存储器访问操作时间。访问(a)的四邻域点,需要4次仿存,采用推导出等价模板后,处理连续四点和八点只需4次访问。在Canny边缘计算过程中,需对输入逐点遍历,如计算梯度时遍历整幅图像灰度,非最大抑制时遍历梯度和方向等,以上等价模板思想,当需要处理图像的八邻域或在其他比较规整的膨胀和腐蚀模板同样适应。

3 硬件仿真结果

硬件平台采用TMS320C6678LE评估板,开发软件采用CCS V5.3,量化位数16位,对一副800×600的显微细胞图像进行处理,分割效果良好,见图4。此外,在优化前后,分别对Canny算法步骤进行分析和测试,耗时统计采用TSCL和TSCH寄存器,结果见表1,所统计的结果均是在勾选相同的编译器优化选项后的比对。

4 结 语

在DSP平台中,采用以上思想进行优化后,对同样的图像进行处理,相对于原算法,性能可以提高近3倍,在差分图像计算时,效果极为明显。在DSP系统设计中,频繁地直接外部存储器接口访问,是系统性能提升的瓶颈,优化结果表明,采用数据打包处理和宽存储器访问方式能在一定程度上解决该问题,虽不能实现数量级的优化,但研究的优化方法同样可以在工程中作为辅助的优化策略,并且具有实际优化效果。

图4 分割前后的显微细胞图像

表1 耗时测试仿真结果 cycle

参考文献

[1] 梁光明.体液细胞图像有形成分智能识别关键技术研究[D].长沙:国防科技大学,2008.

[2] 韩慧妍,韩燮.形态学和Otsu方法在Canny边缘检测算子中的应用[J].微电子学与计算机,2012,29(2):156?159.

[3] 洪运国.基于改进Canny 算子和神经网络的人体行为识别模型[J].计算机工程与应用,2013,49(8):202?205.

[4] 金泽安.基于DSP红细胞图像处理技术[D].南京:南京理工大学,2009.

[5] 孙兴华,郭丽.数字图像处理:编程框架、理论分析、实例应用和源码实现[M].北京:机械工业出版社,2012.

[6] 左飞,万晋森,刘航.数字图像处理原理与实践:基于Visual C++开发[M].北京:电子工业出版社,2011.

[7] Texas Instruments. TMS320C66x DSP CPU and instruction set reference guide [M]. USA: TI, 2010.

[8] QURESHI Shehrzad. Embedded image processing on the TMS320C6000? DSP: examples in code composer studio and MATLAB [M]. [S.l.]: Springer Verlag, 2005.