计算机视觉前沿技术范文

时间:2023-12-28 17:38:16

导语:如何才能写好一篇计算机视觉前沿技术,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

计算机视觉前沿技术

篇1

最近几年,自动驾驶成为当下最为热门的科技领域之一,许多企业纷纷将目光转向该领域,诸如谷歌、百度、英特尔、Uber、丰田、本田、福特等科技和车企巨头都在该领域有相关研究。在国内,除了高举无人车大旗的百度,许多创业公司也在研究自动驾驶技术,图森互联即其中之一。

9月19日,国内计算机视觉与人工智能创业企业图森互联宣布,他们研发的计算机视觉与深度学习算法在全球最权威、最具影响力的自动驾驶算法公开排行榜KITTI和Cityscapes评测数据集上均获得世界第一。仅KITTI数据集中,图森互联获得目标检测三个单项、目标追踪两个单项、道路分割四个单项,共计九个单项的全部世界第一。

那么,在当前,自动驾驶技术究竟有哪些等级?市面上的自动驾驶技术都有哪些阵营?产品落地情况又如何?基于这些问题,《汽车观察》记者对有着十年并行和分布式运算研究经历、曾是淡马锡国家实验室研究员、现为图森互联联合创始人的南洋理工大学博士郝佳男进行了独家采访。以下为部分采访实录:

《汽车观察》:图森做自动驾驶技术项目的初衷是什么,单纯就是看到了这块的市场需求与前景吗?

郝佳男:首先,图森是做图像识别SaaS起家,在技术上有一定的积累,自动驾驶所用到的计算机视觉感知技术和图像识别SaaS在很多方面是同源的;另外,对于自动驾驶,特别是主要基于视觉传感器的自动驾驶,有很高的技术壁垒,图森能够很好地发挥自己的长处;第三,运营车辆对自动驾驶和无人驾驶存在较大的需求,因为自动驾驶和无人驾驶可以极大地减少这些运营车辆企业的人力成本和潜在的安全风险,而且无人车可以持续运营,这对企业来说是生产效率的飞跃。

《汽车观察》:目前,在国际上自动驾驶技术分为几个等级?图森的自动驾驶技术又是几级的技术?在国内外算是一个什么水平?

郝佳男:目前自动驾驶有L1-L5五个等级,L5是人们最期待的完全无人驾驶水平,众人熟知的谷歌无人驾驶在目前只能算是L4级水平。图森的主要目标是通过低成本传感器实现可靠的L3级别无人驾驶。

目前行业内的标杆是以色列的Mobileye。但目前Mobileye量产的芯片依然使用传统非深度学习算法,因此在一些特定场景中(如车侧面、非常见车型等)会出现错误。最近Tesla发生的车毁人亡事故就一个例子。图森的技术方案基于深度学习构建,能够实现更可靠的性能。

《汽车观察》:目前的自动驾驶技术有哪几类?它们的本质区别在哪里?分别有哪些优势?

郝佳男:目前,市面上共有两种解决方案:一种是计算机视觉为主、毫米波雷达为辅的低价解决方案;另一种是激光雷达为主、以摄像头为辅的高价解决方案。

以谷歌和百度为代表的是以激光雷达为主、摄像头为辅的高价解决方案,成本在50万以上。比如Google的无人驾驶车辆,在这个技术路线中,车辆完全由人工智能来驾驶,可以将车辆的方向盘、油门和刹车去掉,同时,为了增加技术的可靠性,Google无人驾驶汽车以激光雷达为核心,一个64线的激光雷达成本在7万美元左右,整体解决方案较贵。另外,激光雷达的硬件可靠性一般,也很难达到车规需求。但是这两家上市企业出于市值管理的考虑,在这方面不计成本。对他们来说,新技术所能达到的程度带来的新闻和公关效力,会大幅地抬高股价。但这种成本过高的技术,在商业化应用时会比较困难。

而选择低价解决方案更容易被车厂、受众所接受。以特斯拉、奔驰、沃尔沃等车厂为代表的渐进型自动驾驶,即先从辅助驾驶开始做起,在特定场景、或是特定的封闭结构化路段适用,做出紧急刹车、自适应巡航、车道保持、自动泊车等动作,后续涉入高度自动驾驶,即除了结构化路段外,还能在非结构化道路上自动驾驶。

图森就属于低价解决方案,即选择低成本的硬件(毫米波雷达、视觉传感器、高性能SoC),配合计算机视觉算法来降低总成本。传感器承担的精度要求降下来,那么对算法的要求就比较高了。

《汽车观察》:目前的自动驾驶技术是如何实现自动驾驶的?能实现到怎样程度的自动驾驶?

郝佳男:自动驾驶系统使用了多种传感器来感知,其中可视为广义“视觉”的有超声波雷达、毫米波雷达、激光雷达(LiDAR)和摄像头等。毫米波雷达和激光雷达承担了主要的中长距测距和环境感知,而摄像头主要用于交通信号灯、车辆、行人等物体的识别。

摄像头拍到的视频其实也是由一帧帧图像形成。拍下来是一回事,通过计算得出图像里的行人、车辆、信号灯等结构化数据则是另一回事。在过去,这被视为不可想象的任务。但深度学习的发展让基于视觉的感知技术获得了大幅度提升,基于视觉的环境感知变得可行了。

《汽车观察》:目前,市面上的自动驾驶技术在产品化的情况如何?有没有落地的产品正在运营?

郝佳男:对于整个自动驾驶行业来说,产品化需要漫长的时间,可能需要2-3年的时间。图森主要还是为主机厂和Tier1(一级零部件供应商)提供以摄像头为主、配合毫米波雷达和视觉芯片的、低成本的自动驾驶解决方案。

《汽车观察》:自长安的无人驾驶路试后,国家开始出台相关禁止自动驾驶路试的政策,这样一来,整个研发自动驾驶技术的企业又该如何测试自己的技术?如何看待国家有关自动驾驶这方面的政策?

篇2

(1.清华大学电子工程系,北京100084;2.英特尔(中国)有限公司,北京100()13)

摘要:媒体与认知实验课程是清华大学电子工程系在课程改革中提出的一门全新的核心必修课程。文章首先阐述该课程的特点,然后介绍基于英特尔RealSense设备及微软Kinect设备开发的一套探索前沿型实验教学平台,分别说明基于手势识别的博弈游戏实验项目和基于姿势识别的组合拍照实验项目,指出通过这些前沿的基于交叉学科的智能感知技术和内容,学生可以掌握成为本领域高层次专业人才必需的各项基本技能和专业知识。

关键词 :RealSense;媒体认知;智能感知;机器学习;人机交互

文章编号:1672-5913(2015)15-0108-03 中图分类号:G642

基金项目:英特尔一清华媒体与认知实验教学项目( 202023011)。

第一作者简介:杨毅,女,高级工程师,研究方向为数字信号处理,yangyy@mail.tsinghua.edu.cn。

1 背景

媒体与认知实验课程借鉴包括美国MIT大学、CMU大学、Stanford大学、英国伦敦大学学院等在内的国外著名大学跨媒体信息处理、入机交互与感知技术、虚拟现实及信号处理领域实验教学课程的特点,并结合清华大学电子工程系在该领域研究的基础、优势和创新性成果,有针对性地将已有科研成果转化为教学实验课中的教学内容,通过建设一套完整、全面的涵盖人机感知交互、媒体信息处理、虚拟现实及信号处理领域的探索前沿型实验教学平台,培养学生的智能感知技术开发能力;同时,采用集体创新培养和个人研究探索相结合的方式,最终达到理工与人文、技术与艺术、感知与思考的高度融合,成为具有国际一流水平的、兼具科研创新能力和探索精神的领军型人才。

实验教学课程内容及平台涉及的主要研究内容包括媒体数据获取与人机交互、生物特征识别、语音识别及情感理解、虚拟交互行为分析等。该实验课程力图建设成为达到国际水平的智能感知技术实验教学课程及项目平台。通过该实验课程的建立,学生能够了解国际科学界及工业界最前沿的媒体认知及智能感知技术热点和难点问题,利用平台的基础设施和设备构建并实施多种解决方案。跨行业、跨领域、跨学科的媒体认知及智能感知类前沿综合实验课程,通过借助智能感知及人机交互知识作为工具和手段解决媒体信息处理、虚拟现实及人机交互的问题,充分挖掘和激发理工科背景知识较佳的电子工程系学生在交叉学科和前沿技术方面的实力和潜力。

2 媒体与认知实验课程特点

媒体与认知实验设计开发了一套以实时智能感知技术为基础的探索前沿型实验教学平台,该平台在设备和设计内容方面均与国际水平接轨,具有教学互促、知识延伸、技能拓展的特点。项目平台涵盖跨媒体信息处理、人机交互与感知技术、虚拟现实等领域的设备和技术,力图成为与国际接轨的探索前沿型实时智能感知实验教学平台。

该课程涉及的技术和研究方向均为国内外智能感知技术领域各大高校和科研院所的研究热点及难点,将这些研究内容引入实验教学,可以引导本科学生开阔科研视野、坚定科研信念和明确科研方向。通过构建与国际最新研发技术水平相当的实验平台,学生能够了解国际领先的媒体认知及信号处理知识和技能,利用该平台的基础设备构建并实施多种解决方案;教学最终达到培养掌握国际领先技术、具有突出创新实践能力和持续探索精神的高素质人才的目的。

该平台内容主要面向各年级本科生及硕士研究生,与基础核心课、专业限选课等课程配套,逐步形成层次清晰、逐级扩展的具有创新探索前沿性质的智能感知技术教学实验课程体系。

3 基于手势识别的媒体认知实验项目

人机交互的双向信息流动是以媒体感知和处理为核心的。人将用户感觉和效应通道传递的交互意图在计算机内表示为文本、语音、图形、图像等多媒体信息。人到机( human to computer)信息流动是多媒体信息的获取及识别过程,计算机处理的信息需要以文本、语音、图形、图像等用户理解概念所需的多媒体信息形式展现出来;机到人( computer to human)的信息流动是多媒体信息的合成和呈现过程,机器利用感知及推理对来自用户感觉和效应通道的跨媒体信息进行识别、集成和协调,获取用户动作和行为习惯、偏好及其他相关信息,以人类易理解的多媒体信息方式为用户提供输出信息,从而提供不受时空限制而效能最大化的个性化计算服务。

美国Stanford大学电子工程系提出一种基于Kinect的手势识别方法,通过Kinect获取RGB图像信息和深度数据,采用SURF变换算法实现高准确度的手势识别。西班牙马德里卡洛斯大学机器人实验室( Robotics Lab,Univ. Carlos IIIof Madrid Leganes,Spain)针对传统的手势识别系统受光照条件影响导致计算量大、训练过程长等问题,根据RGB-D摄像头获取的深度数据建立人手的骨骼模型,从三维骨骼模型中提取手势的时域信号,采用有限状态机对手势不同状态下的方向进行编码,采用基于模板的分类器识别出手势。瑞士苏黎世联邦理工大学计算机视觉实验室( Computer Vision Lab,ETH Zurich,Zurich,Switzerland)提出一种基于Haarlet的手势识别系统,根据微软Kinect设备获取的深度信息检测手势的三维指向,将手势转换为交互命令,提高了人与机器人交互的自然性。

石头、剪子、布、蜥蜴、史波克( Rock-Paper-scissors-Lizard-Spock)是一种由石头、剪子、布延伸出来的博弈论猜拳游戏,在石头、剪子、布基础上增加了两种手势,减少了原来石头、剪子、布游戏和局的几率。该游戏的手势及输赢说明如图1所示(图来自百度图片搜索)。

英特尔的RealSense设备是一种能通过采集视觉、深度,音频等多种媒体信息获得手势、语音等表征意图的智能感知设备,可以广泛应用于自然互动、沉浸式协作与创作等创新应用,能够帮助开发人员在游戏、娱乐和内容创建交互方面实现新的突破。该实验项目通过利用全新的英特尔三维智能感知设备RealSense,可以实现上述手势识别的智能感知功能。该实验设置多种难度,将简单难度设置为电脑随机出拳;针对高等难度则需要学习用户的出拳模式并构建一个马尔科夫模型,电脑针对用户的出拳模式进行相应出拳。基于RealSense识别的5种手势如图2所示,可以看出ReaISense设备对不同手势的区分度较高。

4 基于姿势识别的媒体认知实验项目

人体的三维模型包含足够的信息以描述人体的运动特征,对于体感交互设计而言,姿态识别、动作识别、手势识别非常重要。微软推出的Kinect设备与计算机软件开发包一起使用,为企业和开发者提供创建交互式应用程序的基础,允许开发者借助微软或语言开发相关应用,提供骨豁跟踪、人脸跟踪、语音识别技术等底层功能。基于Kinect设备开发的平台和应用获得了不错的效果。艺术家通过人体组合姿势构成英文里的各种字母形象,如图3所示。

该实验项目通过利用Kinect实现人体字母造型识别,在造型匹配某个特定字母或组合时触发拍照,解决在实际拍照过程中为了摆出某一特定造型需要多次重复大量拍摄的问题。基本思路是利用Kinect的人体识别功能,在摄像头获得的图像中提取出人置信息,然后将人置信息在本地程序中与预设的目标造型进行匹配,只有当匹配程度到达一定值的时候,程序才触发拍摄事件并将图像保存。系统由5个模块组成:初始化、人体识别、计算匹配度、图形显示和拍照触发。其中,初始化模块属于主窗口类,内部由时间进行关联,其他模块各为一类,分别通过调用函数和嵌入窗体的方式使用,其算法框架如图4所示。系统运行过程中,计算出的匹配数值会直接显示在屏幕上,同时弹出提示字幕,向用户反馈其姿势准确程度。

篇3

所谓智能制造,是将物联网、大数据、云计算等新一代信息技术与先进自动化技术、传感技术、控制技术、数字制造技术结合,实现工厂和企业内部、企业之间和产品全生命周期的实时管理和优化的新型制造系统。

智能产品具有监测、控制、优化和自主等四个方面的功能。而智能生产是指以智能制造系统为核心,以智能工厂为载体,通过在工厂和企业内部、企业之间以及产品全生命周期形成以数据互联互通为特征的制造网络,实现生产过程的实时管理和优化。

此次世界智能制造大会抓住智能制造这一世界经济热点,洞察当下全球前沿技术的竞争点,融政产学研为一炉予以共同关注。世界制造业正在经历一场变革、一场进化,生产将变得更加聪明,效率也就更高。此次大宾朋满座,说明企业对智能制造充满渴望,产业发展充满动力。这场大会是科技思维的饕餮盛宴,必将碰撞出大机遇。

智能制造是中国制造业由大转强的核心战略选择,更是中国经济增长变速换挡走向新里程的标志。历经30多年的高速发展,中国在2015年已成为世界制造业第一大国,建成了世界上门类最为齐全的现代制造业体系,中国制造业一直是国家经济发展的重心,一度使中国成为世界工厂的代名词,创造过无数让国人引为荣耀的辉煌。然而,中国制造在发展质量、创新能力、品牌塑造方面,与发达国家相比仍有较大差距,大而不强的问题一直是急需破解的瓶颈,依托资源消耗和人力成本低廉的路径选择越来越艰难,低端的传统优势日趋衰弱,向着东南亚的新一轮国际产业转移凸显中国制造大而不强的尴尬。中国制造亟待在科技创新、智能制造的引领中强筋壮骨,在着力提升生产率的转型中浴火重生,以获得经济中高速增长。

如果说过去3年中国制造在转型中“热身”,试图打开一扇窗户向外瞧,那么这场大会就是一个全新的里程碑――以最先进的智能制造思想武装自己,开辟新的航程。

智能制造给世界带来新活力,给中国带来新发展。瓦特的蒸汽机,在轰鸣声中不但改变了他自己贫病交加的命运,也把整个人类带进了工业社会,解放了生产力,促进了社会进步。乔布斯的“苹果”,一机在手,包揽世界,亿万网民在刷屏中进入移动互联时代,也助燃了信息化火焰燃遍全球。中国也在欢呼声中见证“神九上天,蛟龙入海”的神奇,惊叹中国制造尖端技术的鬼斧神功,制造业的数字化、网络化、智能化为中国经济发展安装了强劲的翅膀。

智能制造为世界经济提供新动能,提高生产率。世界经济不景气,增长下向风险的警报一直未能解除,亟需转变发展方式,期待新动能除旧布新、改天换地。唯有人工智能等科技生产担当此重任,大幅提高生产率,促进经济的发展。依托自然语言处理、计算机视觉、机器学习等这些人工智能核心领域技术的发展,以生态科技、智能机器人、无人车、无人机等为代表的人工智能技术已渐趋成熟。由此撬动的相关产业链也将迎来巨大市场机会,可估商业利益至少在万亿量级。

智能制造将掀起新一轮企业淘汰浪潮。在欧美和日本有成百上千家百年企业,但中国很多企业却做着做着就夭折了,这与企业家的胸怀和眼光有密切关系。企业家要站得高,看得远,转型中高端才能有长久的生命力。这一轮智能制造大潮,让传统企业倍感压力,跟上了,企业就往上走;跟不上,就要趴下去。

篇4

关键词:数字媒体技术;课程体系;实践教学

0.引言

2003年,浙江大学在国内首次开设数字媒体技术专业后,国内各大高校根据自身的情况纷纷开设了该专业,其中有些是从计算机科学与技术专业或软件工程专业设置数字媒体技术专业(如浙江大学、江南大学),有些是从艺术专业中分离出该专业(如中国传媒大学),而有些则依托自身在通信领域的优势开办该专业(如北京邮电大学)。这些高校在专业人才培养目标中均强调“技术与艺术的结合”“培养复合型人才”,但他们的侧重点不完全一致,工科院校强调“以技术为主艺术为辅”,而艺术类院校则强调“以艺术为主技术为辅”,这就造成了目前该专业在人才培养目标上的不明确。2012年,教育部颁布了《普通高等学校本科专业目录和专业介绍》,原数字媒体技术专业和影视艺术技术专业从电气信息类下分离出来成为新目录中计算机类下的数字媒体技术专业,并规定该专业的培养目标是“培养德、智、体等全面发展,掌握数学与自然科学基础知识以及与数字媒体相关的计算机科学与技术、信息与通信工程等学科的基本理论、基本知识、基本技能和基本方法,具备良好的技术素质和一定的艺术修养,能在互动媒体、媒体网络、新媒体工程等领域从事系统设计、开发与应用工作的高级复合型人才。”新目录进一步规范了数字媒体技术专业的性质、人才培养的基本要求以及培养的学生应该掌握哪些知识,应该具备什么样能力,并要求在加强学生基本理论与方法的同时强调注重基本技能的培养。为此,在专业建设与教学过程中,必须增加实践性强的课程,提高教学过程的实践性,合理地开展实践、实训活动,给学生提供较多的参与实践和锻炼的机会。

1.数字媒体技术专业课程与实践教学模式

数字媒体专业是实践性很强的专业,在教学过程中既要制订一套科学的课程体系,也要合理地安排实践与实训活动,这些对学校的软硬件条件提出了较高的要求。那么如何利用有限的资源条件,让学生在掌握较扎实的专业理论知识的同时为学生创造更多的实践、实训机会,是我们需要深入思考和研究的问题。结合江南大学数字媒体技术专业近几年的办学历程,笔者以为,要全面提高专业课程教学和实践教学水平,可从以下几方面入手。

1.1创新科学的人才培养方案和课程体系

科学的人才培养方案是培养合格高校毕业生的根本保障。人才培养方案的制订要结合高等学校的教育特点和自身条件,从市场和企业需求出发,面向社会以适应市场的发展规律。课程的设置要做到按需设置,在保证相对固定的情况下能适度调整,这样才能培养出大批既掌握基本技能又能满足社会需要的创新型应用人才。

实现专业的培养目标,不是仅靠一门或几门课程所能奏效的,而要靠全部专业课程来协调和补充。课程体系是否合理,直接关系到创新人才培养的成败。根据江南大学目前的专业优势,在课程体系的设置中借鉴国内外的成功经验,在加强学科交叉与渗透的同时强调以计算机技术为主、艺术为辅的教学模式,以体现“艺工结合”的办学特色。

为达到专业人才培养的目标,在课程设置中我们将课程分为通识教育课程、学科平台课程、专业核心课程、专业选修课程、集中实践性环节以及素质教育等6大类。其中,通识教育课程主要包括思想政治理论类课程、外语与自然科学基础课程;学科平台和专业核心课程主要是一些能体现专业特色的基础必修课程和专业课程,包括一些艺术类课程,实现学科交叉与渗透;专业选修课程主要是一些专业拓展性课程,以激发学生学习的积极性、主动性和创造性,为学生个性化发展打下基础;集中实践性环节安排在短学期(每学年的第二学期)进行,主要是针对已学过的课程而开设的综合应用与设计类课程,目的是加强学生的实践动手能力,培养学生具有一定的自主创新应用能力,以充分展示学生的个性化。

在课程的建设与执行方面,除通识教育课程外,对其他课程根据设置、知识点、课程内容之间的关联性等采用课程链和课程群的方式进行,主要分为以下5大课程群:

(1)艺术类课程:素描、色彩与综合构成、艺术设计概论、平面设计、场景设计与表现、数字摄影与摄像及视频特技与非线性编辑。

(2)程序与算法类:离散数学、程序设计I(c)、程序设计II、数据结构与算法分析、面向对象技术与语言C++、Java与对象分布技术、脚本编程技术、计算理论及云计算技术等。

(3)系统与硬件类:数字媒体技术概论、数字电路、计算机组成原理、操作系统、数据库系统原理、汇编与接口、数据采集技术、数字视音频技术、数字信号处理、计算机视觉、面向对象的软件工程及人工智能。

(4)图形图像及应用类:计算机图形学、数字图像处理技术、高级图形技术及应用、人机交互技术、流媒体开发技术、信息可视化、虚拟现实与数字娱乐、在线互动媒体技术、XML技术、数字安全技术及计算机前沿技术讲座。

(5)网络与动画游戏类:计算机网络、网站建设与网络传播、动画原理与设计、动画动力学与运动学、计算机动画编程技术、移动媒体游戏设计及计算机游戏程序设计。

在以上课程体系中,要求各课程群内的课程相关性较强并相互依托,而群间的课程相对独立。通过对各课程群课程的设置、各课程的知识点与学分分配以及课程之间的内容衔接等问题进行探讨,可以加强不同课程间的衔接与协调,使课程设置更加合理,教学效果也会得到进一步提升。另外,按课程群进行课程体系建设,既可以充分发挥任课教师的专业特长,又能促进学生的个性化发展。

1.2强化动手能力的培养,推进实践教学改革

实践教学是高校教学的重要组成部分,是培养创新型人才的重大环节,是对理论教学的验证、补充和拓展,它始终贯穿于高等教育的全过程。实践教学环节是创新课程体系的一个重要环节,能提高学生对理论教学的加深、提高和综合运用,培养学生的创新精神和综合素质。建立完善的专业实践教学体系,促进学生实践能力和创新精神的培养,我们从以下方面开展工作:

(1)完善实践教学体系,积极开展课内外实践教学活动。制订完善的实践教学管理制度,加强对实践课程的监督与管理;编写并适时修改实验课程的教学大纲,推进实验教学内容、方法、手段及模式的改革与创新,培养学生发现、分析和解决问题的兴趣及能力,在学生中开展研究性学习和创新型实验的试验。

(2)加强学生的实践与实训,做好校内外实习基地的建设。实习基地是实施实践教学环节的重要场所,是对学生进行专业技术技能训练和解决实际问题能力的训练。在校内,结合数字媒体学院的办学宗旨和人才培养目标,除平时课程的实验教学外,利用短学期(每学年的第二学期)进行专业课程设计,主要涉及面向对象课程设计、人机交互课程设计、三维建模、计算机组成课程设计、图像处理课程设计、互动媒体课程设计、网络游戏课程设计等。由专业指导教师布置课程的设计内容,要求学生在一周时间内完成,最终以大作业或作品的形式提供成果,并评定成绩。通过课程设计,能培养学生运用所学理论知识解决某些实际问题的能力和独立工作能力。在校外,我们联合企业建立多个实训基地,为学生提供包括基本技能和综合能力两方面的真实的实践环境。实训期间,学生顶岗培训,并要求企业指定实训指导教师,负责对学生实训期间的技能培养、团队协作与沟通以及组织管理等方面的指导。通过实训,不仅培养学生解决实际应用问题的能力,还能培养学生爱岗敬业、遵规守纪、团队协作、市场竞争意识以及创新意识等综合素质。

(3)以项目为驱动,促进学生介入科研活动。以讨论式教学、研究式学习、项目团队等多种形式,引导学生开展多种学术观点和思想的交锋,追踪本专业的最新发展前沿,提高自主学习和独立研究能力。结合国家、省及校级大学生创新创业训练计划,以项目的形式让学有余力的学生通过自主选题或参与教师科研项目进行初步的探索性研究工作。在组建学生项目团队时,要求团队成员中既要有数字媒体技术专业的学生,也要有艺术专业的学生,以真正体现“艺工”结合的培养宗旨。这几年的经验表明,让学生参与科研项目,不仅培养了学生运用所学知识解决实际问题的能力,还能提高学生对专业的爱好及其学习激情和创新精神,让学生在了解专业发展前沿的同时掌握从事科学研究的方法,为以后从事数字媒体工作打下了较好的基础。

(4)切实加强毕业设计(论文)的组织与监督工作。毕业设计(论文)环节是高校实现人才培养目标、强化学生专业知识和专业技能、提高学生综合素质和创新能力的重要环节,是高等学校本科生教学计划的重要组成部分,是理论与实践相结合、教学与科研和生产相结合的过程,因此它有着任何课堂教学或教学实习所不可替代的功能,在培养高级专门人才过程中有着特殊的地位。为提高毕业设计(论文)的质量,必须制订完善的规范与标准,并对整个过程实行全程监控。在毕业设计(论文)期间,我们将整个过程分为毕业生动员、学生选题、教师指导、质量监控以及评阅答辩等,时间从每年12月开始到次年的6月。指导教师由高级职称或具有博士学位的教师担任,根据专业要求及从事的科研工作每位指导教师确定题目,实现学生与教师的双向选择;学生选题后由指导教师下达具体的任务,系部组织学生开题;实行中期检查制度,对学生的工作进程进行监控;严把毕业答辩关。通过毕业设计(论文)环节,促进学生分析、解决实际问题和科学研究能力的提高,为他们走上工作岗位奠定良好基础。

(5)开展多种形式的学术交流活动。为激发学生对专业学习的兴趣,了解专业发展的最新动态和社会对专业的需求,聘请国内知名学者和行业专家为学生开展多种形式的学术和主题讲座。学术专家可以就专业现状、发展方向和最新的研究成果为本科生进行介绍,激发学生对专业的热爱和科学研究的兴趣;行业专家则介绍一些新兴产业的相关信息和发展现状,结合行业进行一些技术培训,让广大师生深入了解企业和社会的需求。组织学生参加“挑战杯”大学生课外学术科技作品竞赛、信息技术竞赛等科技竞赛活动,鼓励学生努力追求梦想、迎接挑战,同时营造学院浓厚的学术氛围,促进更加良好学风的形成。

实践教学始终贯穿于高等教育的全过程,要不断改进实践教学的方法和形式,把理论教学与实践教学摆在同等重要的地位;要通过引导吸引高水平教师从事实践教学工作,加强实验、实习与实训、毕业设计(论文)等实践教学环节;要加强产学研合作,充分利用国内外资源,不断拓展校际、校企、校所之间的合作,做好校内外实习基地的建设;推进讨论式教学、研究式学习、项目团队等新型教学组织形式,提高学生自主学习和独立研究能力。

篇5

关键词:基于内容图像检索;相关反馈;主动学习;样本选择

中图法分类号:TP391 文献标识号:A 文章编号:2095-2163(2013)04-

Research on Reference Feedback based on Active Learning

WU Weining, LIU Yang, GUO Maozu*, WANG Chunyu, LIU Xiaoyan

(School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001)

Abstract: Reference feedback is a common technique in the field of information retrieval. Recently, it has been widely applied in the task of content-based image retrieval (CBIR) in order to overcome the gap between low features and high semantic concepts by utilizing the user-computer interaction. This paper combines the active learning into reference feedback technique. The goal is to choose the most informative images in the unlabeled pool as returned images by using the active learning, and then reduces the feedback times. On the COREL database and VOC database, the paper evaluates the proposed method. The experimental results indentify that the reference feedback based on active learning can effectively enhance the performance of CBIR system.

Keywords: Content-based Image Retrieval; Reference Feedback; Active Learning; Sampling Strategy

0 引言

相对文本而言,图像包含的内容则要丰富得多。由于互联网的发展,web上的图片数量正日趋庞大,图像包含的语义信息亦千差万别,另外具有相同语义信息的图像数量页在与日俱增。因此,作为信息检索中一个重要分支,基于内容的图像检索(CBIR)已成为关注热点。

CBIR方法是以一幅图像作为单位,通过使用图像领域的前沿技术,提取图像的视觉特征,例如:颜色,纹理等。当用户查找图像时,搜索引擎根据用户所提供的图像视觉特征,寻找与之相似的图像。这一做法避免了TBIR策略存在的问题,可直接对图像进行操作。但是,由于图像处理技术的局限性,单纯提取图像底层特征很难完整描述图像包含语义信息,并且,图像所属的不同领域,所包含的视觉对象之间具有的空间信息等,也会对图像的语义信息产生很大的影响。为了使搜索引擎能够根据用户提供的高层语义概念返回与用户选择图像语义最为接近的图像,相关反馈技术则提供了一种良好的实现途径。该技术是使得检索系统可根据算法选择少部分图像返回给用户,用户对这些图像给出标记信息,学习系统再从这些标记图像中进行知识学习,并利用这些新知识提供新的检索结果。

根据相关反馈过程的特点,主动学习技术可以有效地用于该过程。具体做法是通过采样算法选择对检索系统最有利的部分样例作为反馈图像,并将这些图像提交给用户进行标记。使用主动学习技术选择反馈图像的目的是减少提升检索系统性能所需要的反馈图像数量,同时也一并减少用户的工作量和提交反馈图像标记的次数。根据这一目的,本文提出一种基于主动学习算法的相关反馈技术,利用主动学习技术从大量无标注待检索图像中选择信息含量最大的图像,将这些图像作为反馈图像,提交用户进行标注,由此而减少用户标记反馈图像的次数和数量,并提高CBIR系统的性能。本文主要工作和贡献概述如下:根据CBIR图像系统中给出的目标图像,学习一个直推向量机模型[1](Transductive Support Vector, TSVM);使用该模型对图像库中的所有待检索图像与目标图像的相似程度进行预测;根据预测结果计算图像对应的信息熵值,选择信息熵的绝对值最小的一组图像作为反馈图像,提交用户获取标记信息;将标注后的图像用于进一步学习直推向量机模型,上述训练过程迭代进行,直至达到用户满意的检索效果为止。结合提出的算法过程,本文在Visual Studio 2005平台开发和实现了这一图像检索系统,并在COREL图像库上对系统性能进行了实验验证,实验结果证明了系统的有效性。

1 相关工作

基于内容的图像检索(CBIR)方法可以被视作机器学习领域中的分类问题,即根据所给出的待检索图像,学习一个分类模型,利用该模型将图像库中的图像划分为目标图像和非目标图像。在检索过程中,一个首要的问题是如何克服图像的底层特征与高层语义概念之间的语义鸿沟。为了解决这一问题,相关反馈技术通过向用户提交查询的方式,让用户提供一部分图像的语义信息,根据反馈图像中的语义信息,提升系统检索的准确度。另外,随着用户提交反馈次数的增加,学习系统逐步将反馈的图像添加到学习系统的训练集中,并使用增量学习的方式,学习用户提供的语义知识。值得注意的是,使用相关反馈技术的CBIR系统的学习方式与主动学习算法具有很大的相似性,因此,利用主动学习算法设计相关反馈,提升CBIR系统的精度,这一做法越发受到研究人员的广泛重视,成为研究热点。

目前,已有一些研究人员致力于将主动学习算法应用于相关反馈技术中,并取得了良好的实际效果。这些做法可以分为两大类。第一类是委员会投票方法[2,3],此类做法的特点是在同一个图像集上同时学习多个分类模型,并使用这些模型对同一个无标注图像的类别进行投票,选择分类模型差异程度最大的图像作为反馈图像;第二类是基于不确定度的反馈方法[1],这类做法的特点是使用当前分类模型对无标注图像的类别进行预测,并根据分类模型的预测结果计算分类模型对图像的置信度,再选择当前分类模型最不确定的图像交由用户进行反馈。

首先,训练集已知的情况下,Platt提出一种贪心算法[4],根据无标记样例对应的未来期望误差,从无标记样例集合中选择训练样例,目的是通过选择未来期望误差最小的样例,逐步搜索主动学习算法的全局最优解。但是,这一做法的缺点是,为了计算每个无标记样例的未来期望误差,需要分别计算该样例被添加正类标记和负类标记后对分类模型的影响,即多次重新训练分类模型。如果无标记样例数量巨大,这一做法的计算消耗很大,因此,很难满足检索系统的要求。近年来,支持向量机模型以其在小样本学习问题上的卓越性能受到了广泛关注。针对该支持向量机模型的启发式主动学习算法也随之得到了更多的研究与使用,例如:Schohn提出了一种启发式的SVM主动学习算法,通过核空间将图像的底层特征维度无限放大,获得了一个特征维度数目远远高于样本数量的稀疏空间,而主动学习的做法是选择包含尽可能多的维度信息的样例作为包含信息含量最高的样例。事实证明,这种方法不但可以获得近似于贪心算法的结果,而且运行效率更高[5]。在该类做法中,包含维度信息最多的样例主要集中在距离支持向量机的分类超平面较近的位置,因此,这一主动学习算法主要选择距离分类界面最近的样例作为反馈样例。与Schohn的做法不同的是,Zhou提出了SSAIR算法[6]。该算法通过利用半监督学习中的co-training算法,结合主动学习中的co-testing模式,使用co-training中训练得到的两个分类模型对测试样本进行投票分类,最终,采用两个分类模型产生分歧的样本作为供用户反馈的备选样本。与其它用于该领域的主动学习算法不同的是,这一做法改变了传统反馈图像集由用户在前次检索中系统认定的与待查询图像最相关的那些图像来构成的定则,而是通过分类模型的投票来选择反馈图像集,尽最大可能改进检索系统的性能。

以上两类做法中,第一类方法需要同时学习多个模型,计算量和时间消耗较大,为了满足图像检索系统的实时性要求,本文选择第二类方法选择反馈图像。事实上,Schohn和Zhou提出的主动学习算法的共同特点是,认为分类模型最不确定或者置信度最低的样例是无标记图像中信息含量最大的样例,在具体做法中则表现为多个分类模型彼此间分歧最大或者距离分类超平面最近的样例,选择这些样例进行标记,可最大限度提高分类模型的性能。与这些方法不同的是,本文提出一种最大信息熵的主动学习算法,在所有无标注样例中,选择样例对应的信息熵值最大的样例点作为信息含量最大的样例,并以此作为反馈样例。算法的目的是在有限的检索时间条件下,更加有效衡量样例的信息含量,由此提高检索系统的性能。

2 基于主动学习的相关反馈算法

2.1信息熵最大化采样策略

本节详细介绍了信息熵最大化这一采样策略,为了方便理解,首先给出问题的基本概念。因为基于相关反馈技术的图像检索系统是一个迭代的学习过程,这里假定在第轮迭代中,训练集表示为,其中,分别表示训练样例及其对应的标记信息。因为图像检索可看作是将待检索图像划分为正类和负类的过程,故有。本文使用TSVM作为分类模型,则在当前迭代步中,TSVM算法学习的分类超平面为:

这里,和分别表示训练样本和无标记样本在核空间的距离,是偏差项。对于任意一个无标记样本,不考虑相同的归一化系数,该样本与分类超平面之间的距离是:

鉴于TSVM模型仅能提供无标记样本与分类界面之间的距离,而无法提供样本与对应的类别标记之间的精确概率输出,为此,本文在这里使用了sigmoid函数,通过拟合的方法获得样本对应类别标记的后验概率值,即:

其中,参数和使用Platt[7]中的优化算法,迭代求解得到。根据无标记样本对应的后验概率值,无标记样本对应的信息熵值可以通过下式计算:

根据计算得到的信息熵值,选择信息熵值最大的样本,作为本轮迭代中最适合加入到训练集中的无标记样本,,即:

2.2 基于主动学习的相关反馈过程

信息熵是信息论中反映样本信息含量的指标之一,鉴于此,信息熵也经常在机器学习算法中作为样本信息含量的度量标准。值得注意的是,在公式(5)中,分类模型对无标注样本的预测概率越接近于0.5,无标注样本对应的信息熵值越大,该样本的不确定程度也就越大。在这一点上,信息熵最大化采样策略与基于不确定程度的采样策略的目标是一致的。在图像检索的相关反馈过程中,本文使用信息熵最大化采样策略,由待检索图像中选择反馈图像,提交用户做出标记,将标记后的样本用于分类模型的训练过程,这个过程迭代进行,直至用户满意为止。下面,给出了基于主动学习的相关反馈的算法过程。

算法:基于主动学习的相关反馈算法

输入:标记图像集,无标记图像集,反馈图像数量

输出:检索结果

BeginFor

(1)在标记图像集上学习TSVM分类模型,获得公式(1)中的分类超平面;

(2)根据分类超平面,使用公式(2)计算每一个无标记样本与该分类界面之间的距离;

(3)通过公式(3)中的sigmoid函数拟合,获得无标记样本对应的后验概率值;

(4)使用公式(4)逐个计算无标记样本的信息熵值;

(5)选择信息熵值最大的个无标记样本作为反馈图像,提交给用户进行标记;

(6),;

(7)如果用户对当前检索结果满意,则结束,否则返回步骤1,。

EndFor

在上面的反馈过程中,每轮迭代中,检索系统返回信息熵最大的一组样本提交给用户标注,该做法可以减少迭代次数,在用户可接受的范围内,尽可能多地提供标注样本用于训练。

3 实验结果与分析

3.1数据库及实验设计

本实验使用COREL图像库中的3类图像作为待检索图像,每类图像包含100幅图像,这3个图像类别分别是鹰,鱼和马。本文分别提取每一幅图像的特征组成样本集合,使用TSVM作为分类模型,用于从CBIR系统中获得检索结果。在每一组实验中,首先,从待检索图像中随机抽取一幅图像作为目标图像,训练TSVM模型;根据该模型的预测结果,计算每一幅图像的信息熵值,并选择信息熵最大的五幅图像作为反馈图像();提交用户标记后,将反馈图像和标记用于训练TSVM模型,同时给出检索结果;该过程循环进行,直至达到结束标准为止。本文使用查全率(precision)作为图像检索结果的评价标准,其中,检索系统划分的相关图像数量是100幅,召回图像数量是20幅。

3.2实验结果

在表1和表2中,本文给出了反馈次数为5次,并使用不同的图像底层特征条件下,在不同语义类别上,CBIR系统的检索结果。从实验结果可以看出,使用最大墒作为样本信息含量的度量标准,基于主动学习的相关反馈技术在图像检索系统中取得了良好的检索结果。随着反馈次数的增加,CBIR系统的检索结果得到逐步提高。同时,表1和表2的对比还可以发现,颜色稀疏和相关图组成的混合特征获得了比SIFT特征更好的检索结果,这是因为前者的维度高于后者,提供了更多的图像底层语义信息,由此而提高了检索效果。

表1 颜色稀疏和相关图的混合特征条件下,不同反馈次数时,CBIR系统检索精度

Tab. 1. Using sparse color and related features, different feedback times, the precision of CBIR system

初始值

反馈1次

反馈2次

反馈3次

反馈4次

反馈5次

0.71

0.724

0.73

0.628

0.732

0.75

0.502

0.522

0.428

0.526

0.522

0.604

0.494

0.538

0.504

0.536

0.572

0.468

表2 SIFT特征条件下,不同反馈次数时,CBIR系统检索精度

Tab.2 Using SIFT features, different feedback times, the precision of CBIR system

初始值

反馈1次

反馈2次

反馈3次

反馈4次

反馈5次

0.5

0.756

0.39

0.71

0.774

0.622

0.44

0.376

0.406

0.406

0.472

0.424

0.25

0.314

0.22

0.358

0.23

0.334

在图1和图2中,本文给出了使用基于主动学习的相关反馈技术在CBIR系统中的检索结果。除了使用COREL图像库作为检索图像库之外,本文还增加了VOC图像库(包含20类,共计5 011幅图像)作为检索图像库,对所提出方法进行实验验证。从图1和图2中可以看出,基于主动学习的相关反馈技术可以有效提升CBIR系统的检索性能。

(a) Car类别

初始检索结果

使用相关反馈技术后的检索结果

(b) Aeroplane类别

初始检索结果

使用相关反馈技术后的检索结果

图1 VOC图像库上,使用基于主动学习相关反馈技术的图像检索结果

Fig.1 The retrieval results on VOC database by using feedback techniques based on active learning algorithm

(a) Eagle类别

初始检索结果

使用相关反馈技术后检索结果

初始检索结果

使用相关反馈技术后检索结果

图2 COREL图像库上,使用基于主动学习相关反馈技术的检索结果。

Fig.2 The retrieval results on COREL database by using feedback techniques based on active learning algorithm

4 结束语

本文利用了主动学习算法在选择训练样本方面,相对于随机选择方法的优势,提出了一种基于主动学习的相关反馈技术。在所提出的技术中,算法利用了分类模型最不确定的样本可以提供更多反馈信息的特点,使用信息熵作为样本信息含量的度量标准,选择每轮迭代过程中,信息熵值最大的样本作为反馈样本,达到了增量学习,提升检索系统性能的目的。本文使用COREL图像库和VOC图像库,对所提出方法的性能进行验证,实验结果证明所提出方法的有效性。

参考文献

[1] CHEN J X. Active learning for transductive support vector machines with applications to text classification[J]. 计算机科学. 2004, 31: 242-244.

[2] ABE N, MAMITSUKA H. Query learning strategies using boosting and bagging[C]//Proceedings of 15th International Conference on Machine Learning. Madison. WI, 1998: 1-9.

[3] SEUNG H, OPPER M, SOMPOLINSKY M. Query by committee[C]//Proceedings of 5th ACM Workshop on Computational Learning Theory. Pittsburgh, PA, 1992: 287-294.

[4] PLATT J. Fast training of support vector machins using sequential minimal optimization. advances in kernel methods: support vector learning[M]. Cambridge: MIT Press, 1998: 42-65.

[5] SCHOHN G, GOHN D. Less is more: active learning with support vector machine[C]// Proceedings of 17th International Conference of Machine Learning. Stanford, CA, 2000: 204-211.

[6] ZHOU Z H, CHEN K J, JIANG Y. Exploiting unlabeled data in content-based image retrieval[C]//Proceedings of the 15th European Conference on Machine Learning. Pisa, Italy: LNAI 3021, 2004: 525-536.

[7] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Advances in Large Margin Classifiers[M]. Cambridge: MIT Press, 1999: 61-74.

基金项目:国家自然科学基金(61171185,61271346,60932008);高等学校博士学科点专项科研基金(20112302110040)

作者简介:吴伟宁(1983-).女,黑龙江宁安人,博士研究生.研究方向:机器学习,图像检索;

刘扬(1976-).男,吉林怀德人,博士,副教授.研究方向:机器学习,计算机视觉;

郭茂祖(1966-).男,山东夏津人,博士后,教授,博导.研究方向:计算生物学与生物信息学,机器学习与图像理解;

王春宇(1979-).男,辽宁宽甸人,博士研究生,讲师.研究方向:生物信息学,并行计算;