卷积神经网络的意义范文
时间:2024-04-02 11:39:26
导语:如何才能写好一篇卷积神经网络的意义,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词关键词:人脸识别;卷积神经网络;图像识别;深度学习;模式识别
DOIDOI:10.11907/rjdk.171043
中图分类号:TP317.4
文献标识码:A文章编号文章编号:16727800(2017)005018603
0引言
人脸识别是近年来模式识别、图像处理、机器视觉、神经网络及认知科学领域的研究热点[12]。所谓人脸识别,是指给定一个静态人脸图像或动态视频,利用存储有若干已知身份的人脸数据库验证单个或多个人的身份[1]。作为生物特征识别的一个重要方面,人脸识别有着广泛的应用场景,如:档案管理系统、公安系统的犯罪身份识别、银行和海关的监控、安全验证系统、信用卡验证等领域。在人脸识别巨大魅力的影响下,国内互联网公司也开始了人脸识别应用的探索,如百度推出的人脸考勤系统、阿里支付宝的刷脸登录等功能都是人脸识别的具体应用。目前,人脸识别的代表性方法主要有以下几种:Turk和Pentland[3]提出的特征脸(Eigenface)方法;基于线性区别分析,Belhumeur 等[4]提出了Fisherface方法;基于统计理论,剑桥大学的 Samaria和Fallside[5]提出了隐马尔科夫模型[5](HMM),Lawrence 等[6]提出的通过多级自组织映射神经网络(SOM)[6]与卷积神经网络相结合进行人脸识别。上述方法虽然获得了良好的识别正确率,但需要人工参与特征提取,然后将提取的特征送入分类器进行识别,过程较为复杂。
卷积神经网络[79]是近年发展起来,并引起广泛重视的一种高效深度学习识别算法,其已成为当前语音分析和图像处理领域的研究热点。相比传统的神经网络而言,卷积神经网络具有权值共享、局部感知的优点。局部感知的网络结构使其更接近于生物神经网络,权值共享大大减少了模型学习参数的个数,同时降低了神经网络结构的复杂性。在图像处理领域,卷积神经网络的优点体现得更为突出,多维的图像数据可以直接作为网络的输入,特征提取和分类均集成在网络中,避免了传统识别算法中复杂的特征提取和训练分类器过程。除此之外,卷积神经网络对图像中的位移、比例缩放、旋转、倾斜或其它形式的变形具有很好的鲁棒性。为了解决传统人脸识别算法特征提取和训练分类器困难的问题,本文借鉴Lenet-5[10]的结构,设计一个适合ORL数据集人脸识别任务的卷积神经网络结构。
1卷积神经网络
1.1用于ORL人脸识别的CNN
本文提出的7层卷积神经网络模型由输入层、2个卷积层、2个降采样层、一个全连接层和一个Sigmoid输出层组成。卷积核的大小均为5×5,降采样层Pooling区域的大小为2×2,采用Average Pooling(相邻小区域之间无重叠),激活函数均采用Sigmoid函数。每一个卷积层或降采样层由多个特征图组成,每个特征图有多个神经元,上层的输出作为下一层的输入。此外,本文实验学习率的取值为常数1.5,该卷积神经网络结构如图1所示。
1.2卷积层
卷积神经网络中的卷积层一般称C层[11](特征提取层)。卷积层的输入来源于输入层或者采样层。卷积层中的每一个特征图都对应一个大小相同的卷积核,卷积层的每一个特征图是不同的卷积核在前一层输入的特征图上作卷积,然后将对应元素累加后加一个偏置,最后通过激活函数得到。假设第l层榫砘层,则该层中第j个特征图的计算表达式如式(1)。
xlj=f(∑i∈Mjxl-1iklij+blj)(1)
这里的Mj表示选择的上一层输出特征图的集合。
1.3降采样层
降采样层是对上一层的特征图进行下采样处理,处理方式是在每一个特征图内部的相邻小区域进行聚合统计。常见的下采样方式有两种:Average Pooling和Max Pooling。其中,Average Pooling是取小区域内像素的平均值,而Max Pooling是取小区域内像素的最大值。降采样层只是对输入的特征图进行降维处理,不改变特征图的个数。假设down表示下采样操作,βlj表示乘性偏置,blj表示加性偏置,则降采样层中某个特征图的计算表达式如下:
xlj=f(βljdown(xl-1j)+blj)(2)
1.4输出层
卷积神经网络的输出层一般为分类器层,常用的有径向基(RBF)函数输出单元、Sigmoid输出单元和Softmax回归分类器。在ORL人脸识别任务中,采用Sigmoid函数输出单元,输出层的编码采用非分布编码“one-of-c”的方式。由于采用Sigmoid函数,每一个单元输出值是0-1范围内的一个正数,代表该样本属于该单元对应类别的概率。数值最大的那个单元即为样本的预测类别。假设x为全连接层的输出,则输出层输出结果的计算表达式如下:
y=f(wTx+b)(3)
其中,f表示激活函数,这里采用Sigmoid函数,Sigmoid函数表达式如下:
f(x)=11+e-x(4)
2实验结果与分析
实验在Windows7 64位下的Matlab 2014a中进行,采用Matlab深度学习工具箱DeepLearnToolbox。PC的内存8G,CPU主频为3.2GHZ。
ORL人脸数据集是在1992年至1994年之间由AT &T Cambridge实验室拍摄的人脸图像所构成。数据集中包含40个不同人物的脸部图像,每个人物包含10张图像,总共400张。每个类别中的脸部图像在不同的时间拍摄得到,存在如下差异:①光线;②面部表情,如眼睛的闭合和睁开状态,面部是否带有微笑的表情等;③一些面部细节上的差异,如是否佩戴眼镜等。该数据集中所有人脸图像均为灰度图像,且图像中人物面部朝向基本一致,都朝向正前方。
图2为ORL数据集中部分人脸图像。数据集中每个原始图像大小为92*112像素,本文实验中对这些图像进行预处理,使每一幅图像的尺寸调整为28*28,并对每一副图像进行归一化处理,这里采用简单的除255的方式。随机选取每一个类别的8张图像作为训练样本,剩下的2张作为测试样本。因此,训练集有320个样本,测试集有80个样本。
2.1改变C3层卷积核个数对网络的影响
卷积神经网络性能的好坏与卷积层卷积核的个数密切相关,但每一个卷积层应该设置多少个卷积滤波器,目前并没有数学理论指导。为了研究卷积核个数对网络最终识别准确率的影响,本文保持C1层卷积核个数不变,通过改变C3层卷积核的个数,形成新的网络结构,用训练集训练网络,训练迭代次数均为60次,然后用测试集对每一种网络结构的性能进行测试。实验结果如表1所示。
从表1可以看出,当C3层有10个卷积核时,网络模型对测试集的识别正确率最高。卷积核的个数与识别准确率并不成正比关系,当卷积核个数过多时,网络的识别准确率会下降,这是因为在卷积核个数增加的同时,需要学习的参数也随之增加,而数据集中训练样本的规模较小,已不能满足学习的要求。
2.2改变C1层卷积核个数对网络的影响
由上述实验结果可知,C3层卷积核个数为10时,网络识别效果最好。因此,为了研究卷积层C1层卷积核个数对识别准确率的影响, C3层保留10个卷积核,改变C1层卷积核的个数构造新的网络结构,用测试集针对不同网络结构就测试集和训练集的识别准确率进行测试。实验结果如表2所示。
从表2的实验结果可以得到相同结论:卷积层卷积核的个数并非越多越好,卷积核个数过多,网络需要学习的参数也随之增加,当训练集中样本个数无法满足学习需要时,网络识别准确率就会下降。
2.3与其它算法比较
为进一步说明本文所提卷积神经网络结构的有效性和优越性,将该结构(C1层6个卷积核,C3层10个卷积核,学习率1.5)的实验结果与其它识别方法在ORL数据集上的实验结果进行对比,结果如表3所示。可以看出,本文所提方法比Eigface、ICA的识别效果好,与2DPCA方法的识别准确率一样,比FisherFace方法的识别准确率只低了0.20%,这进一步证实了本文所提网络结构的有效性。
3结语
本文在理解Lenet-5结构的基础上,提出一种适用于ORL人脸数据集的卷积神经网络结构。实验结果表明,本文提出的卷积神经网络结构,不仅避免了复杂的显式特征提取过程,在ORL数据集上获得98.30%的识别正确率,而且比大多数传统人脸识别算法的效果都好。此外,本文还通过大量验就每个卷积层卷积核个数对网络识别准确率的影响进行了详细研究与分析,这对设计CNN网络结构具有一定的参考意义。
参考文献参考文献:
[1]李武军,王崇骏,张炜,等.人脸识别研究综述[J].模式识别与人工智能,2006,19(1):5866.
[2]张翠平,苏光大.人脸识别技术综述[J].中国图象图形学报,2000,5(11):885894.
[3]YANG M H.Face recognition using kernel methods[J].Nips,2002(2):14571464.
[4]祝秀萍,吴学毅,刘文峰.人脸识别综述与展望[J].计算机与信息技术,2008(4):5356.
[5]SAMARIA F,YOUNG S.HMMbased architecture for face identification[J].Image and Vision Computing,1994,12(8):537543.
[6]LAWRENCE S,GILES C L,TSOI A C.Convolutional neural networks for face recognition[C].Proceedings CVPR'96,1996 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,1996:217222.
[7]陈耀丹,王连明.基于卷积神经网络的人脸识别方法[J].东北师范大学学报:自然科学版,2016,48(2):7076.
[8]卢官明,何嘉利,闫静杰,等.一种用于人脸表情识别的卷积神经网络[J].南京邮电大学学报:自然科学版,2016,36(1):1622.
[9]李彦冬,郝宗波,雷航.卷积神经网络研究综述[J].计算机应用,2016,36(9):25082515.
[10]LCUN Y,BOTTOU L,BENGIO Y,et al.Gradientbased learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):22782324.
篇2
当今的社会是信息的社会。要使信息得到及时利用,为国民经济和科学技术以及国防工业的发展服务,必须对信息数据的采集、加工处理、传输、存储、决策和执行等进行全面的技术革新,以适应社会发展形式的需求。因此,信息科学技术有着极其广泛的重要应用领域,如通信、雷达、声纳、电子测量仪器、生物医学工程、振动工程、地震勘探、图像处理、计算机科学等。各领域的电子信息系统往往具有不同的性能和特征,但是电子信息系统设备的设计都涉及到信息表征和信息处理技术,如果这种信息科技能获得新的突破,电子信息系统产品将走上新的台阶。
当前信息系统智能化和具有高的鲁棒性及容错性是值得研究的重大问题,虽然人工智能和专家系统已取得好的成绩,但还不适应信息社会发展的需求,需寻求新的发展途径。21世纪被称为“智能化世纪和人工神经网络世纪”,信息科学与脑科学、认知科学、神经生物学、计算机科学、非线性科学、数学、物理学诸学科相结合所产生的神经计算科学,为实现新的信息表征和信息处理提供了新的手段,将使信息技术和信息系统智能化得到飞跃的发展。
21世纪是信息社会的智能化时代,信息高速公路的发展加速了通信技术和多媒体通信系统进入网络化、智能化进程;开拓国际互联网,使千家万户能在因特网和大型计算机网络上搜索和浏览各种信息,这都涉及到通信系统和信息处理系统的高度智能化问题。
现代信息处理要解决的问题往往是很复杂的,它要完成由输入空间到输出空间的映射,这个映射可以是线性的,也可以是非线性的,所以信息处理系统是有序结构的物理系统中的映射,恰好是与神经网络信息处理同构。
2 人工神经网络信息处理
一般来说,智能信息处理可以划分为两大类,一类为基于传统计算机的智能信息处理,另一类为基于神经计算的智能信息处理。前者信息系统包括智能仪器、自动跟踪监测仪器系统、自动控制制导系统、自动故障诊断和报警系统等。在人工智能系统中,它们具有模仿或代替与人的思维有关的功能,通过逻辑符号处理系统的推理规则来实现自动诊断、问题求解以及专家系统的智能。这种智能实际上体现了人类的逻辑思维方式,主要应用串行工作程序按照一些推理规则一步一步进行计算和操作,应用领域很广。后者是用人工神经网络来模仿延伸人脑认知功能的新型智能信息处理系统,即仿造人脑的思维、联想记忆、推理及意识等高级精神活动的智能,这类神经智能系统可以解决传统方法所不能或难以解决的问题。例如美国研制出的一种电子“侦探”(苏联《科学与生活》,1990年),就是用神经网络做的能辨识人面孔的智能系统,只要让它看一下某人或他的照片就能记住描述此人面貌的256个数字参数,同时能记住达500人,思考辨认时间总共为1s。人工神经网络系统具有很高的容错性和鲁棒性及自组织性,即使连接线被破坏了50%,它仍能处在优化工作状态,这在军事系统电子设备中有着特别重要的意义,故美国无人侦察飞机已用上这种神经信息系统。美国许多公司生产的神经网络芯片及神经智能系统已商品化。今年最新报导:美Attrasoft公司做出世界上最大的百万个神经元的神经网络(软件)。
3 盲信号处理技术
盲信号处理包括多个信源混合的盲源分离、多通道传输信道的参数估计和系统辨识、盲解卷积和盲均衡技术、盲阵列信号处理和盲波束形成技术等,在通信、雷达、声纳、控制工程、地震勘探、生物医学工程等领域有着极其重要的应用价值,是国际上非常重视的热门研究课题。从数学上讲,盲信号处理问题可以用X(t)=AS(t)来描述,这里X(t)是已知观测数据矢量,而信号矢量S(t)和系统参数矩阵A都是未知的,如何只由观测矢量X(t)来推求S(t)或A,其解将存在不定因素,可能有许多不同的两个量相乘而得到同一个观测数据X(t)。求解这类问题是一个国际性的盲处理难题,但该问题有很高的实用价值。图像、语声、中文诗词及英文文字等多媒体信息混合后的盲分离问题,最高信号干扰之比高于70dB。
篇3
关键词:蛋白质二级结构预测;基团编码;正交编码;SVM
0引言
氨基酸序列的研究是生物信息学中对生物序列展开探讨设计的主要工作,氨基酸序列决定了蛋白质的空间结构,而蛋白质的空间结构决定了蛋白质生理功能的多样性。在利用x射线结晶学及核磁共振等技术对蛋白质结构进行探测时发现,蛋白质结构有4个层次,蛋白质的二级结构是认识了解蛋白质的折叠模式和三级结构的基础,进一步为研究蛋白质的功能以及彼此之间的相互作用模式提供结构基础,同时还可以为新药研发提供帮助。故研究蛋白质的二级结构具有重要的意义。
篇4
关键词:AlphaGo;人工智能;围棋;未来展望
中图分类号:TP18 文献标识码:A 文章编号:1671-2064(2017)07-0193-02
1 围棋与人工智能
围棋作为中国传统四大艺术之一,拥有着几千年的悠久历史。围棋棋盘由19条横线和19条竖线组成,共有19*19=361个交叉点,围棋子分为黑白两种颜色,对弈双方各执一色,轮流将一枚棋子下在纵横交叉点上,终局时,棋子围上交叉点数目最多的一方获胜。围棋棋盘上每一个纵横交叉点都有三种可能性:落黑子、落白子、留空,所以围棋拥有高达3^361种局面;围棋的每个回合有250种可能,一盘棋可长达150回合,所以围棋的计算复杂度为250^150,约为10^170,然而全宇宙可观测的原子数量只有10^80,这足以体现围棋博弈的复杂性和多变性。
人工智能(Artificial Intelligence,AI)主要研究人类思维、行动中那些尚未算法化的功能行为,使机器像人的大脑一样思考、行动。长期以来,围棋作为一种智力博弈游戏,以其变化莫测的博弈局面,高度体现了人类的智慧,为人工智能研究提供了一个很好的测试平台,围棋人工智能也是人工智能领域的一个重要挑战。
传统的计算机下棋程序的基本原理,是通过有限步数的搜索树,即采用数学和逻辑推理方法,把每一种可能的路径都走一遍,从中选举出最优路径,使得棋局胜算最大。这种下棋思路是充分发挥计算机运算速度快、运算量大等优势的“暴力搜索法”,是人类在对弈规定的时间限制内无法做到的。但是由于围棋局面数量太大,这样的运算量对于计算机来讲也是相当之大,目前的计算机硬件无法在对弈规定的时间内,使用计算机占绝对优势的“暴力搜索法”完成围棋所有局面的择优,所以这样的下棋思路不适用于围棋对弈。
搜索量巨大的问题一直困扰着围棋人工智能,使其发展停滞不前,直到2006年, 蒙特卡罗树搜索的应用出现,才使得围棋人工智能进入了崭新的阶段,现代围棋人工智能的主要算法是基于蒙特卡洛树的优化搜索。
2 围棋人工智能基本原理
目前围棋人工智能最杰出的代表,是由谷歌旗下人工智能公司DeepMind创造的AlphaGo围棋人工智能系统。它在与人类顶级围棋棋手的对弈中充分发挥了其搜索和计算的优势,几乎在围棋界立于不败之地。
AlphaGo系统的基本原理是将深度强化学习方法与蒙特卡洛树搜索结合,使用有监督学习策略网络和价值网络,极大减少了搜索空间,即在搜索过程中的计算量,提高了对棋局估计的准确度。
2.1 深度强化学习方法
深度学习源于人工神经网络的研究,人类大量的视觉听觉信号的感知处理都是下意识的,是基于大脑皮层神经网络的学习方法,通过模拟大脑皮层推断分析数据的复杂层状网络结构,使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象,其过程类似于人们识别物体标注图片。现如今,应用最广泛的深度学习模型包括:卷积神经网络、深度置信网络、堆栈自编码网络和递归神经网络等。
强化学习源于动物学习、参数扰动自适应控制等理论,通过模拟生物对环境以试错的方式进行交互达到对环境的最优适应的方式,通过不断地反复试验,将变化无常的动态情况与对应动作相匹配。强化学习系统设置状态、动作、状态转移概率和奖赏四个部分,在当前状态下根据策略选择动作,执行该过程并以当前转移概率转移到下一状态,同时接收环境反馈回来的奖赏,最终通过调整策略来最大化累积奖赏。
深度学习具有较强的感知能力,但缺乏一定的决策能力;强化学习具有决策能力,同样对感知问题无能为力。深度强化学习方法是将具有感知能力的深度学习和具有决策能力的强化学习结合起来,优势互补,用深度学习进行感知,从环境中获取目标观测信息,提供当前环境下的状态信息;然后用强化学习进行决策,将当前状态映射到相应动作,基于初期汇报评判动作价值。
深度强化学习为复杂系统的感知决策问题提供了一种全新的解决思路。
2.2 蒙特卡洛树搜索
蒙特卡洛树搜索是将蒙特卡洛方法与树搜索相结合形成的一种搜索方法。所谓蒙特卡洛方法是一种以概率统计理论为指导的强化学习方法,它通常解决某些随机事件出现的概率问题,或者是某随机变量的期望值等数字特征问题。通过与环境的交互,从所采集的样本中学习,获得关于决策过程的状态、动作和奖赏的大量数据,最后计算出累积奖赏的平均值。
蒙特卡洛树搜索算法是一种用于解决完美信息博弈(perfect information games,没有任何信息被隐藏的游戏)的方法,主要包含选择(Selection)、扩展(Expansion)、模拟(Simulation)和反向传播(Backpropagation)四个步骤。
2.3 策略网络与价值网络
AlphaGo系统拥有基于蒙特卡洛树搜索方法的策略网络(Policy Network)和价值网络(Value Network)两个不同的神经网络大脑,充分借鉴人类棋手的下棋模式,用策略网络来模拟人类的“棋感”,用价值网络来模拟人类对棋盘盘面的综合评估。
AlphaGo系统主要采用有监督学习策略网络,通过观察棋盘布局,进行棋路搜索,得到下一步合法落子行动的概率分布,从中找到最优的一步落子位置,做落子选择。DeepMind团队使用棋圣堂围棋服务器上3000万个专业棋手对弈棋谱的落子数据,来预测棋手的落子情况。期间,系统进行上百万次的对弈尝试,进行强化学习,将每一个棋局进行到底,不断积累“经验”,学会赢面最大的棋路走法,最终达到顶级围棋棋手的落子分析能力。而AlphaGo的价值网络使用百万次对弈中产生的棋谱,根据最终的胜负结果来进行价值网络训练,预测每一次落子选择后赢棋的可能性,通过整体局面的判断来帮助策略网络完成落子选择。
3 围棋人工智能意义
经过比赛测试证明,AlphaGo系统的围棋对弈能力已经达到世界顶级棋手水平。一直以来,围棋因为复杂的落子选择和巨大的搜索空间使得围棋人工智能在人工智能领域成为一个具有代表性的难度挑战。目前的硬件水平面对如此巨大的搜索空间显得束手无策,AlphaGo系统基于有监督学习的策略网络和价值网络大大减少搜索空间,在训练中开创性地使用深度强化学习,然后结合蒙特卡洛树搜索方法,使得系统自学习能力大大提高,并且AlphaGo系统在与人类顶级棋手对弈中取得的连胜卓越成绩,槠湓谌斯ぶ悄芰煊虻於了坚实的里程碑地位。
虽然围棋人工智能取得了如此优秀的成绩,但是也仅仅是它在既定规则内的计算处理能力远远超过了人类的现有水平,并且还有有待提高和完善的地方。在人类的其他能力中,例如情感、思维、沟通等等领域,目前的人工智能水平是远远达不到的。但是随着科技的进步和人类在人工智能领域的研究深入,人工智能与人类的差距会逐渐减小,像围棋人机大战人工智能连胜人类这样的例子也可能在其他领域发生,这就意味着人工智能的发展前景十分可观。
4 结语
人类和人工智能共同探索围棋世界的大幕即将拉开,让人类棋手结合人工智能,迈进全新人机共同学习交流的领域,进行一次新的围棋革命,探索围棋真理更高的境界。
参考文献
篇5
Master的“过人之处”
2016年年末,围棋界对阿尔法狗留下的心理阴影正在消散,这不单是因为在线围棋网站上冒出了更多AI棋手―如日本的DEEPZEN、中国的“绝艺”――更重要的是,人类棋手在与之较量时互有胜负。特别是当中国第一高手柯洁曾完胜“绝艺”的升级版“刑天”(被认为棋力相当于阿尔法狗)一局并宣称可以找到AI漏洞后,人类棋手欢欣鼓舞。
可是,Master就是在这样的背景下登场并毫无悬念地收割胜利的。赛后,棋圣聂卫平感喟“我们无法像电脑那样从不犯错”,而柯洁则连连慨叹,“人类数千年的实战演练进化,计算机却告诉我们全都是错的……”那么,Master究竟强在哪里呢?阿尔法狗研发团队的黄士杰博士表示,其“过人之处”即在于背靠多组超级计算机组成的卷积神经网络,这使得Master不仅具备类似人脑的“策略网络”(选择某一手棋的最优下法),更拥有人类难以企及的“价值网络”(判断每一步静态棋局的精准胜率)。与此同时,Master还可以通过每天自我对弈数十万局来增长棋力――人类棋手一年最多下1000局。由此,Master得以抛开事倍功半的穷举分析,并以闪电般的高效应对使人类棋手难以招架。
电脑将“学会”文化创意
对计算机而言,一切任务都是逻辑运算,而算法和算力是提升效率的主要指标。优化算法可以更轻易地解决问题,提升算力则能在单位时间内获得更多成果。当一项活动具备逻辑运行特征时,即可交由计算机执行;其中的变化规则越多地被掌握,计算机越是容易立于不败之地。国际象棋就是一个例子,由于棋路变化相对简单,今天安装在手机上的对弈程序都已经有了国际特级大师的棋力。专业级弈棋程序(如Rybka)几乎已经算尽棋路,在与人类棋手对决时稳居上风。
常人的直觉是,计算方面输给电脑是正常的,文化创意方面人类则是永远的赢家。而事实上,文艺创作活动也可以通过算法转化为逻辑运算。著名科幻作家刘慈欣就曾开发过一款写诗软件,设定创作一首三行诗,韵脚为a,按下“生成”就跳出结果:“伏特加,请雾化吧!悬崖,请磁化吧!我们都是哗哗啦啦的筹码,我们要挣扎!”而如果在这一领域树立一尊“圣杯”,那无疑是尝试创造博尔赫斯笔下的“通天塔图书馆”。这座由小说家臆想出来的图书馆中,收藏着以不同字符、数字、标点符号组合而成的所有文本――既包括我们读过的书,也包括消逝在历史尘埃中的书,更包括尚未被写出的书……计算机通过罗列全部组合的方式来缔造这个图书馆,不断优化的算法会通过剔除大量无意义结果来为算力减压。
当代的计算机尚无法构建这个图书馆,正如它们还无法穷尽围棋套路的变化那样。但处理器性能是以指数级速度发展的,1946年人类第一台电子计算机“埃尼阿克”的算力在今天连手持计算器都不如,我们又怎能设想一个世纪后的电脑将强大到何种程度呢?可以确定的是,一旦计算机可以“创作”,那么它也必然会攻克音乐、绘画等人文艺术领域,人类灵感创意的专属领地将遭遇机器逻辑的入侵。
与AI共生的未来
AI(人工智能)有强、弱之分。弱人工智能只擅长某个特定领域,比如驾驶、装配或扫地吸尘。阿尔法狗亦属于此,但它的本质是一种深度学习引擎,而不是只会下围棋。按照谷歌公司的蓝图,它将被运用在协助判断早期病症等领域。强人工智能将拥有类似人类的语言、情感以及思维能力,它们在很多方面会超越人类本身,因此研发的意义不是为解决某种具体问题,而是用它们来开创出更多视界。
篇6
关键词:图像识别;OCR;题库采集;移动终端;特征建模
中图分类号:G434 文献标识码:A 论文编号:1674-2117(2016)12-0075-04
采集题库的现状
随着经济和社会的发展、“互联网+”的广泛应用及教育观念的更新,我们迫切需要科学、方便、完善的网络型题库管理系统。试题库建设是教育现代化的需要,是考教分离、最大限度提高办学效益的需要,因此,进行区域网络试题库系统的建设和研究具有十分重要的意义。
受限于教材版本和区域应用层面的需求,采购商业化的题库并不能完全满足教育教学的实际要求。手握大量纸质试卷的老师们,迫切需要一个录入神器,方便快捷地将其录入到题库系统里。
利用基于移动终端的图像文字识别技术将文字和图片迅速录入题库是我们在移动端系统开发的应用亮点。它能够大幅提高对质量不高图像的识别率,其关键算法对图像的噪声、亮度明暗不一致和规格凌乱的问题进行了很好的处理。它能够将图像上传到服务器进行在线识别,在识别过程中先对图像进行消噪,然后对亮度进行均衡处理及对图像阈值分割,提高了图像识别的成功率。
题库采集系统工作流程
题库采集主要分为图像采集、图像识别和标注三个过程。整体的工作流程包括:①系统启动,进入主界面,可选择开始拍摄阅卷或读取设备中已有的图像,如选择拍摄题目,进入图像采集模块,调用移动设备的摄像头进行拍摄,拍摄成功后,跳转至识别界面,如选择读取相册已有图像也跳转至识别界面。②在识别界面上显示出拍摄或者读取的相册图像,首先调用图像预处理模块对图像进行预处理,输出预处理后的图像,然后调用图像校正模块对预处理图像进行校正,输出校正图像,最后调用图像识别模块对校正图像进行识别,输出识别结果。③调用标注模块对识别结果进行分类管理,为题目添加系统属性,如学科、章节、知识点类目、题型、难度系数等标签。图1为题库采集系统工作流程示意图。
OCR智能模型设计思路
在人工智能领域,模拟人类图像识别活动的计算机程序,人们提出了不同的图像识别模型――模板匹配模型。这种模型认为,识别某个图像,必须在过去的经验中有这个图像的记忆模式,又叫特征模型。当前的刺激如果能与大脑中的模型相匹配,这个图像也就被识别了。例如,有一个字母A,如果在脑中有个A模板,字母A的大小、方位、形状都与这个A模板完全一致,字母A就被识别了。图像识别中的模型识别(Pattern Recognition)利用计算机和数学推理的方法对形状、模式、曲线、数字、字符格式和图形自动完成识别、评价的过程。
那么如何通过模型的学习提高OCR的智能判断水平呢?我们主要从以下三个方面做了实践研究。
1.采集识别优化
(1)二值化处理
二值图像在数字图像处理中占重要地位,其在处理实际图像过程中地位更加突出。要应用二值图像,扫描文档之后的第一步就是对灰度图像根据所选阈值进行二值化处理。二值图像是像素值为0或255的像素点集合,如此一来,图像的数据量大大减少,但图像的基本轮廓信息得以保留。此项的关键是所选取的阈值是否得当,不当则会减弱二值图像的处理效果。常用的阈值选取方法有固定阈值法、平均阈值法、直方图法、Means法四种。
谷歌公司在HP公司Tesseract光学字符识别引擎的基础上做了深度加工,其中对阈值的自适应分类器和两步矫正法的应用大大提高了文本的识别效率。近几年来,百度针对商业运用开发了自然场景OCR API服务,依托百度的OCR算法,提供了整图文字检测、识别、整图文字识别、整图文字行定位和单字图像识别等功能。目前火热的作业帮APP就是基于百度识别API做的延伸产品(如图2)。
(2)图像去噪与矫正
任何一幅原始图像,在其获取和传输的过程中,都会受到各种噪声的干扰,使图像质量下降,淹没其特征,对图像分析非常不利。为抑制噪声、改善图像质量所进行的处理被称为图像平滑或去噪。
图像平滑是用于突出图像的宽大区域和主干部分(低频部分)或抑制图像噪声和干扰(高频部分),使图像平缓渐变,减小突变梯度,改善图像质量的图像处理方法。它属于图像增强的一部分,主要的图像平滑方法有均值滤波、中值滤波、灰度形态学滤波、小波滤波、高斯低通滤波以及统计方法滤波。
已获得的文本图像有些不可避免地会发生倾斜,这样会给后面文字的行切分和列切分以及文字的识别带来困难,所以需要对获取的图像进行倾斜校正。图像的倾斜校正最关键的是倾斜角的检测,我们主要采用平行四边形法进行文本图像的校正(如图3)。根据拍摄者给出的一系列文件位置点,用位置点的坐标结合模型拟合出文本线,根据文本线与水平线之间的差距进行精确恢复,以得到水平分布的文本行。
2.特征提取与建模
特征提取是图像识别的重要步骤,为了保证后续处理的质量,生成的特征要具备描述物体的典型特性,如独特性、完整性、几何变换下的不变性、灵敏性以及抽象性。我们设计的系统的特征模型包括文字特征、图片特征、公式特征等。
提取图像特征关系可以有两种方法:一是对图像进行合理地分割,划分出图像中所包含的对象或区域,然后根据这些区域提取图像特征,并建立索引;二是简单地将图像均匀地划分为若干规则子块,然后对每个图像子块提取特征,并建立索引。
图像特征建模的基本原则是根据图像的视觉内容和可获得的指导信息来确定对应的文本语义描述。在图像标注任务中会涉及两种不同的媒体:一是图像,二是文本。这两种媒体具有良好的互补性,可以协作传递信息,正所谓“图文并茂”。由这两种媒体可以产生4种关系,即图像间关系(IIR)、词间关系(WWR)、由图像到词的关系(IWR)和由词到图像的关系(IR)。
3.基于标注模型的学习与训练
我们通常采用两两图像之间的视觉相似性(pairwise similarity)来建立以图像为节点的相似图,但这种方式由于没有考虑到数据集或某个数据子集内的结构分布信息,效果不能令人满意。因此我们引入了第二个以词为节点的图学习过程,用来实现对图像标注的改善。
最常见的是属性相关性,如“李白”是“古诗文”的关系。除此之外,词汇之间还存在多种相关性,如“凸透镜”与“光”之间有着很强的联系,这种相关性不依赖于特定数据集,它是人们在生活中大量知识的积累和反映。当一幅图像已被标为“凸透镜”“光”等词汇后,初中物理作为该图像标注词汇的概率就会相应提升。为了获取这种相关信息,一种方法是从训练数据集中利用已标注词汇间的共生概率来计算词汇间的关系。该方法基于已标注信息,相对准确,但它不能反映更广义的人的知识。于是,我们可以采用另一种方法,利用具有大量词汇的、包含了人的知识的结构化电子词典来计算词汇间的关系。与统计方法相比,词典包括了更加完整的大数据关联信息。由此我们设计了基于标注的模型学习体系(如下页图4),通过提取题目图像的特征点绑定其隐形属性,再与拍摄者提供的显性属性做比对,进行数据建模,并引导系统修正其三大特征库(文字、图片、公式),实现自我学习。
需要注意的是,基于标注信息描述由图到标签的关系,更适合按照多标记分类(multilabel classification)问题来解决。具体而言,假设标注词汇服从多项式分布,由此将图像标注归为多类别分类问题,而题库的分类方式恰恰符合这样的多标记模型(相对固定是显性标签:学科、学段、知识点、章节、难度等)。
注意事项
1.基于API方式的接入能使产品得到快速开发
例如,当前百度通过专业服务分发平台APIStore开放百度文字识别技术,让开发者可以零成本使用基于移动应用的OCR技术,为开发者创新应用提供了更多的选择。
2.题库特征建模要考虑学科特征
实践证明,文科和理科的题目有着截然不同的特征属性,如语文更注重词汇与语法方面的训练,而数学包含了大量的公式和二维化的图像。往往数学在小学和中学阶段的题目也会表现出不同的特征属性,在建模的同时要注意抽取。
3.未来的方向是要构建基于题库图像模型的题库推送规则
当题库的建构达到一定数量之后,我们要将图像和翻译成的题目都保存下来,再根据拍摄者的需求做相关的推送,根据其使用的情况(如点击率、评价等)再对模型进行修正。
从目前的技术发展角度看,突破性来自于机器语言翻译方面的研究成果:通过一种递归神经网络(RNN)将一种语言的语句转换成向量表达,并采用第二个RNN将向量表达转换成目标语言的语句。而谷歌将以上过程中的第一种RNN用深度卷积神经网络CNN取代,这种网络可以用来识别图像中的物体。此种方法可以实现将图像中的对象转换成语句,对图像场景进行描述。概念虽然简单,但实现起来十分复杂,科学家表示,目前实验产生的语句合理性不错,但还远谈不上“完美”,这项研究目前还处于起步阶段。相信在不久的将来此项发明将应用于教学领域,那么基于云模式下的图像识别系统将得到一个质的飞跃,它也将使图像识别与深度学习更加紧密地联系在一起,最终实现系统对互联网上教育资源摘取和自学习的强大功能。
参考文献:
[1]黄明明.图像局部特征提取及应用研究[D].北京:北京科技大学,2016.
[2]刘淼,杨镇豪,谢韵玲,谢冬青,唐春明.Android图文同步识别系统的设计和实现[J].计算机工程与设计,2014(06).
[3]李龙卓.基于形状特征的图像检索技术研究[D].青岛:青岛科技大学,2015.
[4]付芦静,钱军浩,钟云飞.基于汉字连通分量的印刷图像版面分割方法[J].计算机工程与应用,2015(05).
篇7
论文摘要:当点扩展函数未知或不确知的情况下,从观察到的退化图像中恢复原始图像的过程称为图像盲复原。近年来,图像盲复原算法得到了广泛的研究。本文在介绍了盲图像恢复算法的现状的基础上进一步研究其的发展方向。
一、引言
图像恢复是图像处理中的一大领域,有着广泛的应用,正成为当前研究的热点。图像恢复的主要目的是使退化图像经过一定的加工处理,去掉退化因素,以最大的保真度恢复成原来的图像。传统的图像恢复假设图像的降质模型是己知的。而许多情况下,图像的降质模型未知或具有较少的先验知识,必须进行所谓的盲恢复。其重要性和艰巨性而成为一个研究热点。目前所能获取的观测图像是真实图像经过观测系统成像的结果。由于观测系统本身物理特性的限制,同时受观测环境的影响,观测图像和真实图像之间不可避免地存在着偏差和失真,称观测系统对真实图像产生了降质。图像恢复的目的就是根据降质的观测图像分析和计算得出真实图像。
二、图像盲恢复算法的现状
总体来说,图像盲复原方法主要分为以下两类:一是首先利用真实图像的特别特征估计PSF,然后借助估计得到的PSF,采用经典的图像复原方法进行图像的复原。这类方法将PSF的估计与图像的复原过程分为2个不同的过程,因而具有较少计算量的特点;二是PSF辨识和真实图像估计相结合,同时辨识PSF和真实图像。这类算法较为复杂,计算量较大。另外,对于点扩展函数也考虑了空间变化的复杂情况。针对目前的盲复原算法的现状,根据退化模型的特点,重新将算法分为空间不变的单通道盲复原算法、空间不变多通道盲复原算法和空间变化图像盲复原算法3类。
(一)单通道空间不变图像盲复原算法
在这类算法中,最为常用的是参数法和迭代法。
1)参数法。所谓参数法,即模型参数法,就是将PSF和真实图像用某一类模型加以描述,但模型的参数需要进行辨识。在参数法中,典型的有先验模糊辨识法和ARMA参数估计法,前者先辨识PSF的模型参数,后辨识真实图像,属于第1种类型的图像盲复原算法,因而计算量较小;后者同时辨识PSF和真实图像模型参数,属于第2种类型图像盲复原算法。
2)迭代法。所谓的迭代法,不是通过建立模型而是通过算法的迭代过程,加上有关真实图像和PSF的约束来同时辨识PSF和真实图像的方法。迭代法是单通道
图像盲复原算法中应用最广泛的一类算法,它不需建立模型,也不要求PSF为最小相位系统,因而跟实际更为接近。在这类算法中,迭代盲复原算法(IBD),基于非负性和决策域的递归逆滤波器算法(NAR2RIF),基于高阶统计特性的最小
熵算法等最为典型。
(二)多通道二维图像盲复原
多通道二维图像盲复原,这类方法将数字通讯领域应用的一维多通道盲原分离算法扩展到二维情况并用于图像的盲恢复。这类算法中有两种代数方法,一种是先辨识模糊函数,再采用常规的恢复算法进行复原;另一种是直接对逆滤波器进行估计。此类算法的优点在于不需对初始图像进行估计,也不存在稳定性和收敛性问题,对图像以及模糊函数的约束是松弛的,算法具有一般性。但是第1种算法要求采用复原算法具有收敛性;第2种算法对噪声敏感。
(三)空间改变的图像盲复原方法
在许多实际的应用中,模糊往往是空间变化的,但由于处理工作的难度,目前的研究较少,基本有相关转换恢复和直接法两类。
相关转换恢复的基本思想是区域分割,即将整幅图像分为若干局部区域,然后假设在各个局部区域模糊是空间不变的,利用空间不变的图像复原有关算法进行复原。这类方法都是基于窗口的模糊辨识技术,图像的估计取决于窗口的大小,由于模糊参数是连续变化的,在范围较大时空间不变的假设是不成立的,因而模糊的估计精度较差,而且这种方法只能针对部分空间变化的模糊进行处理,缺乏通用性;其次在区域的边上存在振铃现象。
直接法的基本思想是直接对图像进行处理。如采用简化的二维递推卡尔曼滤波器进行图像模型和模糊模型的直接转换方法,其缺点是只能针对有限的模型,而且模型数增加,计算量会显着增大;采用共轭梯度迭代算法,但只见到一个31×31的文本图像处理的结果报道,对于大图像处理效果尚需进一步的研究;将空间变化图像系统建立成马尔苛夫随机模型,对复原过程,采用模拟退火算法进行最大后验估计的方法,这种方法避免了图像的窗口化,并能克服模糊参数不连续性造成的影响,但这种方法只能局限于将模糊过程建立成单参数的马尔苛夫随机模型的情况,而且计算量也较大。
三、图像盲恢复的应用前景
(1)现有算法的改进以及新的算法研究。现有各种算法还存在许多不足,有必要对算法进一步改进。如IBD算法中,如何选择初始条件才能保证算法的收敛;如何选择算法终止条件才能保证恢复的质量;如何选择滤波器中的噪声参数才能减少噪声的影响。又如NAR2RIF算法中,如何进一步解决噪声敏感问题,支持域的确定以及如何将算法扩展到非均匀背景的情况等。提出新的算法更好地解决图像盲复原问题,也是今后研究的热点。
(2)基于非线性退化模型的图像盲复原算法。在实际应用中,严格来讲,所有的退化模型都是非线性的。对模型采用线性化的方法进行近似处理,虽然算法简单,但对非线性严重的情况处理效果并不理想。基于多项式以及神经网络两种参数模型处理非线性信号盲分离算法,算法扩展到二维图像情况需要进一步研究。研究基于非线性退化模型的图像盲复原算法也是下一步研究方向之一。
(3)去噪处理算法研究。加性噪声的存在,使图像的复原问题变成了一个病态问题,而且由于一般假设只知道噪声的统计特性,因此要从退化图像中完全去除噪声是不可能的。另外,由于噪声的存在,恢复的效果并不理想,结合降噪的图像盲恢复的算法研究有很现实的意义,这方面也进行了部分工作。为克服噪声的影响,一般采用先进行降噪,后进行复原;二是将降噪和复原同时进行这两类方法。目前,大多数算法中将噪声描述成高斯噪声进行研究,在实际应用时有较大局限性。对于非高斯情况的研究采用基于噪声的高阶统计特性的去噪算法研究也是很重要的研究方向,也可采用其他类型的方法进行降噪,利用自组织映射的非线性独立组件分析方法进行图像降噪处理算法。
(4)实时处理算法。算法的的复杂性是制约算法应用的一个重要方面。可采用正则化的离散周期Radon变换的方法将二维的卷积转化为一维进行处理,以提高算法的速度;也可采用神经网络的实时处理算法。算法的实时性是算法实际应用的先决条件。
(5)应用研究。算法的应用是推动算法研究的动力。虽然图像盲复原算法在天文学、医学、遥感等方面获得了较大的应用,但将算法应用到一般的工业图像实时检测、机器视觉、网络环境下的图像传输恢复、刑事侦破等方面还有大量的工作要做。
参考文献:
[1]薛梅,杨绿溪.用于含噪二值图像的改进NAS-RIF图像盲复原算[J].数据处理.2006.17.(2).
篇8
2.有扭仿射李代数(g)[σ]-模范畴C的分类高永存,田亚男,GAOYong-cun,TIANYan-an
3.信息粗交流在价格形成机制中的作用研究昝廷全,赵永刚,ZANTing-quan,ZHAOYong-gang
4.基于截断模型的收获度的实证分析张辉,龙学锋,ZHANGHui,LONGXue-feng
5.序列图像的高精度面绘制方法刘宏,闵曙辉,LIUHong,MINShu-hui
6.一种改进的后散射型光电煤尘传感器梁红,王凤箫,LIANGHong,WANGFeng-xiao
7.基于固定效应模型研究我国居民教育投资的差异性孙靖,张辉,SUNJing,ZHANGHui
8.NGB主要接入技术方案分析胡睿,彭涛,杨易,HURui,PENGTao,YANGYi
9.基于灰色相对关联度的图像边缘检测算法齐英剑,李青,吴正朋,QIYing-jian,LIQing,WUZheng-peng
10.MPEG帧转换为DAB帧的研究与实现沈向辉,刘月萍,SHENXiang-hui,LIUYue-ping
11.基于用户总体满意度的遗传任务调度算法王晓光,王永滨,杨晓刚,WANGXiao-guang,WANGYong-bing,YANGXiao-gang
12.多媒体语言实验室的构建与应用詹群,朱兵,ZHANQun,ZHUBing
13.漏泄式音频发射系统在听力教学中的应用吴和敏,WUHe-min
14.高清摄像机技术参数规范研究王鸿涛,史萍,王世平,WANGHong-tao,SHIPing,WANGShi-ping
15.一族具有四阶收敛的迭代算法姜亚健,刘停战,刘伟,JIANGYa-jian,LIUTing-zhan,LIUWei
16.多声道环绕声传声器技术原理与应用俞锫,YUPei
1.质量概念的意义黄志洵,HUANGZhi-Xun
2.博弈论的粗集模型昝廷全,朱天博,ZANTing-quan,ZHUTian-bo
3.一种改进的基于支持向量机与波导理论的电磁参数提取方法研究肖怀宝,周建威,逯贵祯,夏禹,XIAOHuai-bao,ZHOUJian-wei,LUGui-zhen,XIAYu
4.预失真系统的采样率和滤波器带宽的设计张鹏,杨刚,杨霏,刘昌银,ZHANGPeng,YANGGang,YANGFei,LIUChang-yin
5.MIMO-OFDM系统的一种新的半盲估计胡峰,李建平,刘瑞奇,HUFeng,LIJian-ping,LiuRui-qi
6.基于ARMLinux舞台调光台的研究与实现中国传媒大学学报自然科学版 任慧,郭振华,董保华,林倩,RENHui,GUOZhen-Hua,DONGBao-Hua,LINQian
7.基于Matlab的OFDM仿真实现及性能分析王玲,逯贵祯,肖怀宝,WANGLing,LUGui-zhen,XIAOHuai-bao
8.BICM-ID系统的四维16QAM星座映射设计张华清,ZHANGHua-qing
9.CMTS双下行信道的研究朱红旭,刘剑波,ZHUHong-Xu,LIUJian-bo
10.环形地共面波导馈电的超宽带天线设计郭庆新,李增瑞,居继龙,GUQing-xin,LIZeng-rui,JUJi-long
11.时间频率基准源的原理和设计杨刚,刘晋,YANGGang,LIUJin
12.新型斩控式正弦波舞台调光器的研究与实现李真,董保华,任慧,郭振华,LIZhen,DONGBao-hua,RENHui,GUOZhen-hua
13.超窄带调制技术与FM结合的双模式传输付志跃,张华清,FUZhi-yue,ZHANGHua-qing
14.一种基于ARM-Linux的调频广播监测接收机的设计徐博尧,杨刚,XUBo-yao,YANGGang
15.研究生科技论文规范化的两个问题王谦,WANGQian
16.证券印花税调整对股市流动性及波动性影响的实证分析李文磊,杨茜,黄媛,张娅,LIWen-lei,YANGXi,HUANGYuan,ZHANGYa
1.微波衰减测量技术的进展黄志洵,曲敏,HUANGZhi-Xun,QUMin
2.制度边界的粗集模型研究昝廷全,杨婧婧,ZANTing-quan,YANGJing-jing
3.EPON宽带接入网DBA技术的研究帅千钧,李鉴增,SHUAIQian-jun,LIJian-zeng
4.剧院HVAC系统噪声评价方法研究蒋昭旭,任慧,蒋伟,张晶晶,JIANGZhao-xu,RENHui,JIANGWei,ZHANGJing-jing
5.BICM-ID系统的多维星座映射设计张华清,ZHANGHua-qing
6.DRM系统中电子节目指南信息编码传输的研究与实现沈向辉,SHENXiang-hui
7.基于支持向量机与开口波导法的电磁参数提取方法研究肖怀宝,逯贵祯,李晓茹,XIAOHuai-bao,LUGui-zhen,LIXiao-ru
8.基于DAB的一种删除卷积码的编码算法的仿真与验证李鑫,邓纶晖,LIXin,DENGLun-hui
9.TinyOS下的串口通信研究与实现刘宣旺,陈远知,章必成,杨仕勇,LIUXuan-wang,CHENYuan-zhi,ZHANGBi-cheng,YANGShi-yong
10.适用于电场探头的垂直腔面发射激光器的PSpice模型朱广超,林金才,逯贵祯,王超,ZHUGuang-chao,LINJin-cai,LUGui-zhen,WANGChao
11.DRM开源软件接收系统石东新,李朝晖,SHIDong-xin,LIZhao-hui
12.环境税征收的博弈分析龙学锋,黄媛,马丽丽,李文磊,LONGXue-feng,HUANGYuan,MALi-li,LIWen-lei
13.运动模糊图像复原技术的改进算法高文硕,郑伟伟,杨磊,GAOWen-shuo,ZHENGWei-wei,YANGlei
14.LDPC码在AWGN信道中的性能研究邵丽娜,史萍,骆超,SHAOLi-na,SHIPing,LUOChao
15.高标清信号上下变换的实现方法李键,LIJian
1.现代物理学中的负参数研究黄志洵,HUANGZhi-xun
2.国际贸易系统化水平研究昝廷全,陈国珍,应思思,ZANTing-quan,CHENGuo-zhen,YINGSi-si
3.K(m,n,1)方程的紧支集精确解朱永贵,吴联仁,周莹,王敏,ZHUYong-gui,WULian-ren,ZHOUYing,WANGMin
4.广义Toroidal李超代数的不可约可积表示付佳媛,FUJia-yuan
5.PIN二极管在可重构天线中的作用的研究周彬,逯贵帧,ZHOUBin,LUGui-zhen
6.基于马尔科夫随机场的合成孔径雷达图像分割方法王玲,逯贵祯,肖怀宝,WANGLing,LUGui-zheng,XIAOHuai-bao
7.路由器缓存容量的分析研究张博,颜金尧,ZHANGBo,YANJin-yao
8.基于PeerCast的P2P流媒体系统郑春浩,颜金尧,ZHENChun-hao,YANJin-yao
9.快速黑白图像自动上色技术研究曾靓,杨盈昀,ZENGLiang,YANGYing-yun
10.基于DVB-T的OFDM系统的信道估计研究张华清,吴娱,ZHANGHua-qing,WUYu
11.网络不良视频信息过滤系统的研究与实现谢志扬,史萍,XIEZhi-yang,SHIPing
12.基于FPGA的PCI接口中的DMA传输模块设计胡南,邓纶晖,HUNan,DENGLun-hui
13.基于五株全相位采样提升小波的图像融合孙寿燕,张彬,SUNShou-yan,ZHANGBin
14.中国传媒大学学报自然科学版 移动多媒体广播系统中LDPC编码器的设计与实现尹航,胡志强,肖如吾,YINHang,HUZhi-qiang,XIARu-wu
1.消失态与Goos-H(a)inchen位移研究黄志洵,HUANGZhi-Xun
2.双重分解法及其与Adomian分解法的比较潘平,朱永贵,PANPing,ZHUYong-gui
3.一种实现IBOC数字音频广播系统中复用技术的方法周敏,李建平,宋金宝,ZHOUMin,LIJian-ping,SONGJin-bao
4.关于相对论中的质量和动量张操,TSAOChang
5.DVB.S信号干扰Matlab仿真研究刘凯,陈远知,LIUKai,CHENYuan-zhi
6.OFDM系统峰均比压缩技术的研究智慧川,曾志斌,ZHIHuic-huan,ZENGZhi-bin
7.基于WSN与RFID的智能仓库管理系统设计章必成,刘宣旺,陈远知,杨仕勇,ZHANGBi-cheng,LIUXuan-wang,CHENYuan-zhi,YANGShi-yong
8.一种基于H.264的快速运动估计算法吴小敏,徐伟掌,WUXiao-min,XUWei-zhang
9.模拟退火算法研究混合结构吸波材料特性肖怀宝,逯贵祯,关亚林,XIAOHuai-bao,LUGui-zhen,GUANYa-lin
10.证券交易印花税对股市波动性影响的实证研究肖延庆,龙学锋,李文磊,XIAOYan-qing,LONGXue-feng,LIWen-lei
11.基于DRO耦合技术的S频段低噪声振荡源的设计研究王三川,WANGSan-chuan
12.MPEG-4实时编码的Cache算法优化胡志强,HUZhi-qiang
13.基于DMB-TH的LDPC码性能分析张华清,ZHANGHua-qing
14.基于PML和有限元法求解二维时谐散射问题康彤,陈涛,涂中华,赵孟洲,KANGTong,CHENTao,TUZhong-hua,ZHAOMeng-zhou
1.论单光子研究黄志洵,HUANGZhi-Xun
2.手机辐射生物效应的量子理论研究李旸,逯贵祯,LiYang,LuGui-zhen
3.数目可变多目标的实时跟踪马艳,王京玲,刘剑波,MaYan,WangJing-Ling,LiuJian-bo
4.基于EM算法的MIMOOFDM系统信道估计胡高平,程艳,HuGao-ping,ChengYan
5.二进制与非二进制Turbo码性能研究骆超,史萍,LUOChao,SHIPing
6.DAB复用系统中数据服务器的设计与实现孟祁,沈向辉,MENGqi,SHENXiang-hui
7.基于嵌入式Linux的Web远程继电器控制系统的设计实现丁天然,王乐,DINGTian-ran,WANGLe
8.SlaveFIFO模式下CY7C68013和FPGA的数据通信马俊涛,李振宇,MAJun-tao,LIZhen-yu
9.基于均值漂移的SAR图像分割方法研究逯贵祯,王玲,肖怀宝,LUGui-zhen,WANGLing,XIAOHuai-bao
10.广播电视舆情分析研究宋金宝,柴剑平,阚锎,SONGJin-bao,CHAIJian-ping,KANKai
11.室内电波传播预测与实验研究王宜颖,林金才,逯贵祯,曾冬冬,刘子菡,WANGYi-ying,LINJin-cai,LUGui-zhen,ZENGDong-dong,LIUZi-han
12.基于PSO-BP算法的微带天线谐振频率神经网络建模董跃,田雨波,DONGYue,TIANYu-bo
13.演艺灯光网络控制系统设备识别机制的研究白石磊,任慧,蒋伟,刘荣,蒋玉暕,BAIShi-lei,RENHui,JIANGWei,LIURong,JIANGYu-jian
14.中国传媒大学学报自然科学版 数学离散选择模型实证研究双语课程教学模式张辉,谢秋霞,ZHANGHui,XIEQiu-xia
篇9
1影像组学的定义及方法概述
随着医学影像技术及成像手段的快速发展,所产生的医学图像数据量也越来越大,对图像获取和存储方面的质量控制,使得规范化、多模态的影像大数据集的建立成为可能。过去处理及使用小样本量图像数据的方法和模式,显然不能对图像的大数据信息进行充分的挖掘和利用。荷兰学者Lambin于2012年首次提出了影像组学(Radiomics)的概念[9],作为一种新兴的利用医学影像大数据对疾病进行定量分析预测的方法,可以从医学图像中获得更多客观定量、肉眼难以鉴别的影像学特征,再将其转换为可挖掘的高维数据信息,从而实现图像到数据的转换[10,11]。通过大量的自动化数据特征化算法的使用,影像组学能有效实现图像的采集与重组、病灶的分割及勾画,并通过对病灶影像组学特征的提取与筛选,最终完成影像组学模型的建立[11,12]。近些年来,影像组学已广泛应用于不同疾病的研究之中,在疾病检测、诊断、鉴别诊断及预后评估方面发挥着越来越重要的作用。此外,深度学习(Deeplearning)等人工智能技术的突破性发展,减少了传统影像组学人工提取数据特征的步骤,极大地缩短了从病灶影像组学特征提取到最终影像组学模型建立的时间,进一步促进了影像组学技术在医学图像处理等诸多领域的应用研究。
2影像组学在肝脏非肿瘤性病变中的研究进展
2.1肝纤维化及肝硬化的诊断评估
肝纤维化是各种慢性肝病发展为肝硬化或肝癌的过渡阶段,主要是由含大量胶原蛋白的细胞外基质(extracellularmatrix,ECM)过度沉积于肝小叶周围所引起,这些过度沉积的ECM阻碍正常肝细胞与血液间的物质交换,并最终引起肝细胞的的坏死、变性,从而诱发了肝纤维化等一系列的慢性肝损伤的过程。组织学上肝纤维化及部分肝硬化经治疗后可逆[14],因此早期精准地评估肝纤维化程度对于患者的治疗及预后十分重要。作为诊断是否存在肝纤维化和评估肝纤维化分期的“金标准”的肝活组织穿刺检查有创、可重复性差,并且肝纤维化的不均质性、穿刺活检样本量较少等因素,均会影响肝纤维化分期的准确性[13,14]。影像组学作为一种无创性的方法,可以对肝纤维化及肝硬化程度进行更加准确的评估。Park等[7]回顾性搜集436例不同肝纤维化患者的钆塞酸二钠增强MRI图像并构建影像组学肝纤维化指数模型,通过与肝活检结果对比并内部验证剔除相关性较低的特征,最终建立与肝纤维化分期相关性较高的模型,进行前瞻性验证后发现其诊断F2~F4、F3~F4级肝纤维化及F4级肝硬化的敏感度和特异度分别为71%、78%,79%、82%,92%、75%;表明基于钆塞酸二钠增强扫描肝胆期图像的影像组学分析能较为准确地进行肝纤维化的诊断及分期。Wang等[15]搜集12个临床医学中心,398例患者共1990幅超声二维剪切波弹性成像图像,采用深度学习算法之一的卷积神经网络(convolutionneuralnetwork,CNN)建立了超声弹性成像深度学习影像组学模型,并以肝活检作为金标准进行模型诊断效能的评估,结果显示该模型可显著提高对肝纤维化分期的准确性,其对肝硬化(F4)、晚期纤维化(≥F3)和显著性纤维化(≥F2)诊断的曲线下面积(AUC)值分别高达0.97、0.98和0.85,表现出极佳的诊断效能。有研究[16]采用纹理分析的方法对212例不同病理分期肝纤维化患者和77名志愿者肝脏多层螺旋CT图像进行分析后发现,随着肝纤维程度的逐步加重,由纹理分析所获得的峰度和偏斜度是逐步减低的,而平均灰度强度、熵则表现为依次增高,在区分不同分期肝纤维化和肝硬化时均显示出较高的诊断效能,特别是在诊断肝硬化(≥F4)时,峰度和偏斜度的诊断的AUC值分别为0.86、0.87,表明纹理分析不仅有助于检测肝纤维化的存在,还可用于肝纤维化的分期。综上所述,基于多种成像手段所构建的影像组学模型对肝纤维化及肝硬化均表现出较高的评估诊断效能,故影像组学的发展,可能为临床上早期发现、及时准确评估肝纤维化及肝硬化程度提供帮助,但基于不同成像手段所建立的影像组学模型间性能差异的研究,有待进一步的探索。
2.2门静脉高压及GOV破裂出血风险的评估
肝硬化失代偿期常伴随门静脉高压症的出现,其严重程度与肝硬化所导致的相关并发症如GOV、肝性脑病、腹腔积液等密切相关,因此,准确地评估门静脉高压程度十分重要。但是,目前评估门静脉压力变化的金标准肝静脉压力梯度(hepaticvenouspressuregradient,HVPG)为有创检查、且费用较高,不利于临床常规开展[17,18]。GOV破裂出血是晚期肝硬化最常见、最严重的并发症,也是患者死亡的主要原因,相关研究显示近50%门静脉高压症患者可出现GOV,在肝功能C级的患者中,GOV出现概率高达85%,食管胃十二指肠内镜是诊断GOV的“金标准”[19],主要通过观察内镜下GOV的范围、程度及“红色征”等进行出血风险的评估,但内镜检查对于GOV程度严重的患者可重复性差。影像组学的出现,为门静脉高压及GOV破裂出血风险的无创性评估提供了新的选择。Liu等[20]基于222例不同程度门静脉高压患者的增强CT图像构建了临床显著性门静脉高压(clinical-lysignificantportalhypertension,CSPH)的非侵入性影像组学模型,并通过4个外部验证队列中163例患者,对该模型的诊断性能进行了前瞻性检验,结果显示该模型不仅在内部验证集中诊断CSPH的AUC值高达0.849,在4个外部前瞻性验证队列中,该模型诊断CSPH的AUC值也分别高达0.889、0.800、0.917、0.827,提示该影像组学模型可作为无创检测肝硬化CSPH的一种准确方法。Yang等[21]通过分析两个临床医学中心共295例乙肝肝硬化患者的肝脏三期增强CT图像,从门静脉期CT图像提取出21个与GOV出血关系密切的影像组学特征,并结合了3个临床特征(性别、门静脉高压、门静脉栓子有无),建立了用于预测乙肝肝硬化患者继发GOV出血的CT影像组学模型,结果表明该影像组学模型的预测效能明显优于临床模型(AUC0.83vs0.64),对于GOV破裂出血的预测,在训练队列与验证队列中,该模型预测的准确率分别为76%、73%,是一种有效预测GOV破裂出血的无创性方法。此外,还有研究[22]基于169个门静脉高压患者的CT图像,建立了一个肝、脾特征联合的影像组学模型,并对62例接受GOV治疗的患者进行了验证队列研究,结果表明该模型不仅可以用于门静脉高压的诊断,还可用于GOV出血复发风险的预测,以29.102mmHg为最佳截断值时,相应的AUC可高达0.866,提示该影像组学模型可作为无创、精准预测继发于门静脉高压症的GOV治疗效果的有效的参考指标。影像组学无创、可重复性强,在门静脉压力及GOV出血风险的评估中潜力巨大,但模型预测效能的稳定性及泛化能力,仍需进一步的临床研究进行证明。
2.3肝脏储备功能的评估
肝脏储备功能状态的准确评估,关乎肝病患者,尤其是肝癌患者治疗方式的选择及预后[23]。Child-Pugh分级评分系统是临床应用最广泛的肝脏储备功能评分标准,但Child-Pugh分级具有高度的变异性,易受患者胆汁排泄、门静脉栓子形成等因素的影响,从而影响临床工作中对患者肝脏储备功能评估的准确性[24,25]。影像组学通过高通量的提取和处理图像信息,可以对疾病进行更准确、更全面的评估。Simp-son等[26]对12例接受大范围肝切除术后并发肝功能不全和24例未出现肝功能不全患者的术前CT图像进行纹理分析,发现术后并发肝功能不全患者术前CT上肝实质的质地明显不同,术后并发肝功能不全者不仅对称性较差,均匀性也较差,并且两组患者纹理特征之一的熵值间也存在显著的差异,故从术前CT图像中提取的纹理特征,可用于预测患者术后肝功能衰竭发生概率,可作为提供术前风险分层的另一种手段。Zhu等[27]基于101例患者的术前钆塞酸二钠增强MRI图像,使用影像组学的方法从肝胆相图像中提取了61个影像组学特征,并最终筛选出5个影像组学特征用于建立术前预测肝癌患者术后肝功能的影像组学模型,其结果表明该模型对于预测术后肝功能衰竭发生概率具有良好的预测效能,模型预测的AUC值高达0.894,可用于预测肝硬化患者肝大部切除术后的肝功能衰竭。Zhou等[25]通过100例不同肝脏储备功能肝硬化患者钆塞酸二钠增强MRI肝胆期图像所建立的评估肝脏储备功能的列线图预测模型,在预测肝脏储备功能方面,也显示出良好的效能,在训练集及验证集中,其预测肝脏储备功能Child-PughB+C级患者的AUC值分别为0.88和0.86。影像组学在肝脏储备功能评估中具有一定的价值,但不同病因患者间肝脏储备功能影像组学特征间是否存在差异,以及所建立评估肝脏储备功能模型的泛化能力,还有待进一步的研究。
2.4与肝脏肿瘤性病变的鉴别诊断
肝脏局灶性病变良恶性的准确判断,对于临床治疗方式的选择及患者的预后来说十分重要。但部分非肿瘤性病变和肿瘤性病变、良性肿瘤性病变和恶性肿瘤性病变之间影像学表现存在交叉,易出现误诊。影像组学能深度挖掘医学影像图像的影像特征信息,从而降低对肝脏局灶性病变的误诊率。Suo等[28]通过纹理分析的方法对20例肝脓肿患者及26例肝脏恶性肿瘤患者的增强CT图像分析后发现,纹理特征之一的熵值能较为准确区分肝脓肿与肝脏恶性肿瘤,其诊断的灵敏度与特异度分别为81.8%、88.0%,AUC值高达0.888。Nie等[29]基于55例非肝硬化肝局灶性结节增生患者和101例肝癌患者的CT影像资料,从增强CT图像中进行病灶勾画后提取了4227个影像组学特征,通过降维方法将其缩减为10个影像组学特征,并联合性别、年龄,病灶大小、形状、中央瘢痕征有无等主观评价条件构建了一个用于鉴别诊断肝脏局灶性结节增生与肝癌的影像组学模型,结果显示该模型在训练集及验证集区分两者的AUC分别高达0.979和0.917,具有良好的预测效能。而钟熹等[30]对31例患者肝硬化结节常规T2WI序列进行纹理分析的结果之中,纹理参数如对比度、逆差距,能量、相关性、熵值均具有统计学意义,能有效进行小肝癌及局灶性增生的鉴别诊断。有研究[31]运用机器学习算法之一的随机森林算法,通过获取动脉期CT图像纹理特征及性别、年龄等临床特征,建立了肝脏富血供病变类别的预测模型,结果显示其诊断肝腺瘤、局灶性结节增生及肝细胞癌的准确率分别为91.2%、94.4%、98.6%。以上结果提示:影像组学对肝脏非肿瘤性病变及肿瘤性病变有较强的鉴别诊断效能,能显著提高肝脏局灶性病灶的影像诊断准确率。
3肝脏非肿瘤性病变影像组学的挑战与展望
- 上一篇:巩固脱贫攻坚成果总结
- 下一篇:卷积神经网络发展史