语音识别范文

时间:2023-03-29 05:26:07

导语:如何才能写好一篇语音识别,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

语音识别

篇1

关键词:语音识别 应用领域 热点 难点

中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02

1应用领域

如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。

2发展历史

语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。

80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。

90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。

现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。

3研究的热点与难点

目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。

目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。

4语音识别系统

一个典型的语音识别系统如图所示:

输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。

语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。

语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。

声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。

DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。

模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。

ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。

将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。

语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。

5总结

尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。

参考文献:

[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.

[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.

[3]赵力.语音信号处理[M].机械工业出版社,2003.

篇2

简单地说,自动语音识别(ASR)是一种让计算机识别语音,并将它转换为书面文本的技术,是语音科学与工程发展最快的领域之一。作为新一代的计算技术,它是人机交互领域继文本到语音转换(TTS)和支持交互式语音响应(IVR)系统之后的又一个重大创新。自动语音识别系统的目标是准确、有效地将语音信号转换成文本,并且不受说话者、环境或者是使用的设备(即麦克风)的限制。

语音识别技术最初是为残疾人设计的,它可以帮助那些肌肉骨骼残疾人士实现计算机上的最大生产力。虽然自动语音识别是一项几十年前就开始开发的技术,但直到Apple的虚拟个人助理SiriTM和IBM的WatsonTM的商业成功才真正展示了这一领域的重大突破。事实上,当2011年底Apple推出新一代的iPhone Siri语音识别软件时,在某种意义上意味着这个具有几十年历史的旧技术对普通消费者来说已经足够好了。

全球语音识别市场的主导者是总部设在美国的Nuance Communications,其软件被认为是Siri的动力, 而它的大多数技术依赖于将语音转换为计算机可以理解的文本。Nuance的语音解决方案支持多达50种不同的语言,并且维护着世界上最大的语音数据图书馆之一;有近三分之二的财富100强公司依靠Nuance的解决方案;Nuance的解决方案已经应用到超过50亿部手机和7千万辆汽车上。在医疗方面,仅在美国就有超过3千家医院使用Nuance的医疗保健解决方案,超过15万的医生和护理人员使用Nuance的Dragon Medical系统。

自动语音识别的发展

最早尝试设计机器自动语音识别系统是在20世纪50年代,但以失败告终。第一次成功的语音识别成果产生在20世纪70年代,当时一般的模式匹配技术被推出。由于应用扩展有限,基于统计方法的自动语音识别技术也在同一时期开始开发。如今,统计技术在自动语音识别应用中盛行,常见的语音识别系统可以识别数千字。

在20世纪90年代初,计算机语音识别技术出现了巨大的市场机会。但当时这些产品的早期版本笨重且很难使用,而且不得不做出妥协:它们或者被“调整”为要依赖于一个特定的说话者,或者是只有小词汇量,或者是用一种非常程式化、僵化的语法。然而,在计算机行业中没有什么可以长期保持不变。20世纪90年代末期,出现了全新的商业语音识别软件包,它们比上一代产品更容易使用,也更有效。

自动语音识别研究的“神圣目标”是让计算机实时地以100%的准确度识别任何一个人说的话,并且不受词汇量、噪音、说话者特征和口音、或者说话渠道的影响。尽管在这一领域的研究已经有几十年了,但大于90%的准确率只有在某种程度的制约下才能实现。例如对通过使用麦克风(小词汇量,无噪音)的连续数字的识别准确率可以达到99%以上;如果系统被训练学习某个说话者的声音,那么在可用的商用系统中较大的词汇也同样能被处理,只是准确率会下降到90%~95%;而不同说话者不同渠道的大词汇量语音识别的准确率不超过87%,并且处理时间是实时的数百倍。自动语音识别的性能可能受许多因素的影响,包括技术设计、语音输入的类型和质量、周边环境和用户特征等。当有更多的数据时,自动语音识别系统的性能可以更好,因为这样统计模型就可以建立在更大的基础上。Google的自动语音识别系统性能好的原因是它们存储了每个键入或说到Google中的搜索词,并基于搜索的共性来确定概率。

自动语音识别的应用

过去十年目睹了语音识别技术的显著改善,高性能算法与系统都已可用,使得自动语音识别的应用越来越广泛。IT主流使得采用自动语音识别在全球商业中变得更为关键,尤其是近年来互联网协议(VoIP)平台的扩散刺激了企业对语音识别技术的采用。以支持应用程序开始,语音识别解决方案已经演变成渗透包括航空公司、银行、仓储、库存管理和安全券商等多个行业的核心应用程序,并已经成为差异化服务和建立客户关系的工具。甚至医疗中心、医院、制药公司和其他医疗保健行业参与者也纷纷采用自助语音解决方案,因为这不仅能降低运营成本,同时也提高了客户的隐私度。

消费者对自动语音识别技术的应用程序范围从基本的依靠语音启动的报警系统和手机上的语音拨号,到智能手机应用中的语音股票报价和基于语音的电子邮件,以及更多的有针对性的解决方案,如互动娱乐和语音身份验证等。同时,自动语音识别也是汽车导航、远程信息处理系统和信息跟踪等的重要组成部分。随着对支持语言学习的创新应用的需求日益增加,使用自动语音识别技术的计算机辅助语言学习(CALL)系统也越来越受关注。

语音自动转化为文本 我们都听过像Apple的Siri一类的可以自动识别我们说什么的系统,并想知道我们能否使用这种“自动语音识别”技术来替代手工转录口述内容的繁琐过程。

自动语音识别的一个流行应用是语音自动转录为文本,比如将讲话转录成手机短信、自动数据输入、直接语音输入和制备结构化文档等。日本议会的转录系统就使用了自动语音识别。在这种应用下,声音用电子方式被转换成文本,并创建会议记录或者报告草稿等。然后会议记录或者报告草稿被格式化,编辑修正翻译、标点或语法中的错误,并且检查一致性和任何可能的错误。在有标准化术语的领域工作的转录员——比如放射学或病理学领域中——更有可能会遇到语音识别技术。在医疗界,医疗转录机可以听医生和其他专业医疗保健人员的录音,并把它们转录到医疗报告、信件和其他行政材料中。这一应用具有提高工作输出效率并改善访问和控制各种计算机应用的潜力。通过使用语音输入,自动语音识别应用程序绕过或尽量减少传统的手动输入方法(例如键盘、鼠标),因此也使它成为有严重的肢体或神经运动障碍人士的一种替代输入法。

同声传译 目前同声传译设备虽然尚未完善,但达到基本上可用的要求却是指日可待。2012年夏天,伦敦发明家Will Powell展示了一个进行英语和西班牙语即时互译的系统。对话双方都戴着与手机相连的耳机,而他们佩带的特制的眼镜可以像字幕一样把翻译的文字显示出来。这款即时互译系统在只要有手机信号的地方就能工作,但目前此系统需要耳机、云服务和笔记本电脑的支持,也就意味着它目前还只能是个设计原型。

2012年11月,日本最大的移动电话运营商NTT DoCoMo推出了一项可以将电话中的日语与英语、中文或韩语互译的服务。通话的每一方都连续说话,然后该公司的计算机在几秒钟内将听到的内容翻译到所要求的语言,并将结果视情况适当地用男声或女声输出。

在同声传译领域最诱人的成果可能来自Microsoft。2012年10月,当该公司的首席研究官Rick Rashid出席天津的一个会议时,他的英语演讲现场就被翻译成了普通话,先是以字幕的形式显示在大屏幕上,接着以电脑合成的声音读出。最引人注目的是,Rashid先生的中文版演讲与他的英文版演讲具有相同的语气和音调。Microsoft认为,如果以说话者自己的声音传递译文,听众对错误的容忍度会提高,比如Rashid先生演讲的即时中文翻译虽然偶有错误,但仍收到热烈的掌声。

自动语音翻译技术和智能手机中的应用目前可用的视频和音频数据量正在以指数级飞速增长,远远超过了人工翻译的承受力。当人工翻译不可行时,自动语音翻译可以发挥重要的作用,它不仅让通信成为可能,而且可以帮助从海量的数据中找出重要信息。自动语音识别和机器翻译能让会议跨越国界和语言地高效举行。

不仅是技术的进步支持自动语音识别的采用,商业趋势也如此。在各个行业中,对最新移动技术的需求与日俱增。为顺应这一趋势,许多语音翻译技术都可以装在智能手机应用或平板电脑上使用。

不可否认,基于互联网的解决方案有巨大的优势,因为当人们说话时他们的数据可以被收集和分析,而识别准确率的一个主要因素是训练声学模型的数据量。越多的人对Google Search和Siri说话,这些系统的性能就会越好。但是如果一个系统只能联网使用,那旅行者的使用就会受限。而英国的一家叫Nouvaris的公司于2012年开发的Nova Search不需要连接到互联网就能使用。因此,当没有3G或无线网信号时,你仍然能让智能手机或计算机通过数据库进行搜索或回答问题。而当如果有互联网连接时,该技术可以在几秒钟之内就从庞大的数据库中完成筛选,到目前为止,它已对高达2.45亿条的列表起作用。由于是在智能手机上而不是互联网上解码语音,Nova Search可以更快速地完成语音指令的数据库搜索。

Google和Siri基本上是将语音转换为单词流输入到网络搜索或人工智能口译员。而Nova Search不同是因为它直接用语音输入搜索自定义数据库,它会产生拼音符号流,并将其用在一个非常快的已获得专利的搜索技术中。通过使用以拼音为基础的方法,该软件可以一次搜索整个词组,而不是只搜索个别单词。虽然该软件仍然是在搜索互联网时最有用,但能在本地使用设备的语音识别功能仍具有一些关键的优势,因为需要发送的数据大大减少,而且很快,要知道语音是一种非常昂贵的信号发送。该软件的应用包括对智能手机或电脑说出目的地,然后它会帮你找到公共交通路线等。

语音识别验证 在兴起的所有类型的生物特征识别应用中,基于语音的身份验证是用户排斥较小的安全验证,它是一种非接触式、非侵入式且易于使用的方法。使用说话人的语音进行验证可以有许多应用。例如,当仓库中员工在工作中走来走去时,可以给他们配备可穿戴/便携式语音数据收集系统使其进入仓库;可以对因酒后驾车而定罪的罪犯方便地进行远程酒精测试。结合移动定位系统,语音验证还可以用于跟踪保安人员,以确保他们自己在正常巡逻,而不是让他们的朋友在帮他们巡逻。另外,语音验证也可作为多安全系统用来控制过境。比如在Montana州的Scobey,气温有时会降至零度以下,于是大多数其他形式的生物识别技术不再可行,而语音验证装置却可以照常工作。

在金融方面,语音验证也开始有了应用。Nuance公司2013年5月的调查数据显示,有85%的人对当前的身份验证方法不满,因为要登录到银行帐户、旅行网站或其他个人帐户时,必须要记住许多个人识别码、密码、安全问题及其答案;数据还显示,如果能有相同高的安全级别的话,90%的人希望能使用语音识别解决方案来代替传统的身份验证方法,因为语音识别技术可以通过每个人独特的声音来标识他,从而消除了要记住和键入密码、个人识别码的麻烦,让身份验证过程变得快速而简单。

2013年5月,Barclays财富投资管理部署了Nuance的Free Speech语音识别方案,成为第一家在呼叫中心将被动的语音识别技术部署为主要客户验证手段的金融服务公司。自推出以来,超过84%的Barclays客户已在Nuance语音生物识别技术解决方案中注册,其中有95%的人第一次使用时就成功验证了身份。更妙的是,客户与联系中心的经验反馈也有所改进,93%的客户对新的身份验证系统就速度、易用性和安全性的评分至少为90分。Nuance的语音生物识别技术让象Barclays银行这样的组织通过更直观、更透明的认证方式重新定义它们的客户服务经验,减轻了客户和服务的负担。

汽车上的应用 技术的发展一日千里,这极大影响了现代汽车中的驾驶员界面。先进的驾驶员辅助系统、自动泊车制动系统和无钥匙点火等创新从根本上改变了驾驶员界面的构成。这些新的舒适性、信息和娱乐系统要求驾驶员处置大量的按钮、旋钮和屏幕,并且这一需求还在不断增加。移动智能手机和平板电脑也被越来越多地纳入汽车中,以满足驾驶员在行车中对连接和新服务的需求。对驾驶员来说,这显然带来了驾驶干扰和信息超载的风险,尤其是这些主要车辆控制还只是冰山一角。而最有前景的解决方案似乎是语音控制,并且这早已是汽车行业的愿望。2013年现代的下一代汽车将有自然语言的语音启动电话拨号、消息听写、目的地输入等,并能在车内或在线音乐服务中搜索音乐。然而需要认识到的是,即使有语音控制,驾驶员分神的风险依然存在。

自动语音识别的其他应用 移动广告是数字广告中增长最快的领域之一。根据eMarketer的数据,2012年全球移动广告支出达84.1亿美元,是2011年的40亿美元的两倍以上,并且预计到2013年达到近370亿美元。作为创新性的新的移动广告格式,语音广告是游戏规则改变者,它可以让人们与他们喜欢的品牌有动人有趣的双向对话,品牌可以通过让消费者在广告中畅所欲言而令其对品牌产生持久的印象。在以前,从来没有一个品牌能够有超过10亿用户的个人对话,而这正是品牌一直渴求的与公众的亲密关系。目前Nuance VoiceAds已经完全可以做到这一点。

2013年,松下新的高清智能电视SMARTVIERA采用Nuance配备的Dragon TV系统,人们可以坐着通过语音来查找内容、搜索网页、控制音量等, 创造了更多的互动和智能电视体验。

另一个更为有趣的应用发生在俄罗斯,该国最大的零售银行联邦储蓄银行(Sber bank)开发了一种使用语音识别来测谎的自动提款机。该机器通过将客户对一些问题的反应与一个记录审讯中说谎人的数据库比较,从而确定客户是否说谎。

自动语音识别的未来

除了从事自动语音识别的研究和开发的科学家和技术人员,大多数人考虑自动语音识别时低估了它的复杂性。它不仅是自动的文本到语音,复杂的识别任务的一个必要条件是自动语音识别需要有大的数据容量和存储器的快速计算机,并且需要语音科学家、语言学家、计算机科学家、数学家和工程师的参与。这些参与者应用神经网络、心理声学、语言学、言语感知、人工智能、声学语音学等领域的知识,为实现人类和机器之间的自然会话这一最终目标共同努力。

过去三十多年来,语音识别研究的特点是小改进的稳步积累。由于语音识别性能的提高和更快计算机的可用,商业研究和其他学术研究继续把重点放在日益难以解决的问题上。其中一个关键领域是提高语音识别性能的强健耐用性,这不仅是指抗噪音方面,也包括在所有可能导致性能大幅下降的情况下的强健耐用性。另一个关键领域关注的是一个机会,而不是一个问题,因为这项研究尝试利用许多应用中的大量高达数百万小时的可用语音数据。如果靠人来把这些语音转录成文本,成本相当高昂,因此研究关注的是开发一种新的机器学习的方法,使之能有效地利用大量未标记的数据。还有一个研究领域是更好地理解人的能力,并使用这种理解来提高机器识别性能。

篇3

1语音识别系统设计的技术依据

近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。

1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。

2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。

3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。

2英语翻译器语音识别系统设计及应用

英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:

1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。

2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。

3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。

4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。

5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。

3翻译器使用注意事项

语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。

4结论

篇4

目前,语言识别技术已经被大量应用于企业的呼叫中心领域。大部分的电脑查询服务都会采用自动语音识别技术,用来处理客户的各种需求,从而减少人工服务的数量,节约人力资源。然而,在经历过冗长、复杂的自助服务互动体验后,客户更加期待实用性高的语音互动应用,使得他们能够在拨打了第一通电话后就轻松将问题解决。这也让自动语音识别的准确性成为衡量语音识别软件的一个重要标准。对于语言识别技术供应商来说,其产品应当包括对自然语言与噪音处理的功能,以及支持多种语言版本和方言。

Nuance是最早从事自动语音识别技术研究的公司之一,在其最新推出的语音识别应用平台中,已经能够有效地过滤噪声背景,适度提高语音辨析率,并在无线、免提和嘈杂的环境下提高准确率。目前的语音识别应用系统还可以自动适应每种特别的部署环境,并具体套用于各种方言、区域口音和电话线路特性的声学模型中。

排除噪音干扰是语音识别技术的一项关键性挑战。为了能在本质上展现高效处理各种噪音的能力,提供更高的识别准确度,服务商通常与学术界和数据收集单位保持密切关系,广泛且准确地使用这些声学和语言学的数据。在目前的语音识别系统中,其声学模型通常采用大量来自现实世界的数据整合而成,包括各种噪音环境,从而具有较高的噪声适应性。

以Nuance公司为例,依靠其先进的端点和语音检测公式,系统能够精确地将语音内容和背景噪音分离开来,即使是在极其嘈杂的移动环境中,新的端点检测技术也能够让系统自行判断语音何时开始、何时结束,从而更准确地转录。事实上,相较于之前的传统语音识别产品,Nuance公司在嘈杂环境中展现了更优越的侦测准确度,识别准确率平均提升了45%以上。

据笔者了解,现在最新的语音识别平台还具有非常准确的自然语言处理能力,以高效处理开放式的语音输入以及主动对话等状况。系统能够根据来电者提供的资料,让对话变得更加灵活。比如说,来电者可在通话中一次提出好几个问题, 或者通过提示来修正系统。因此,语音自助服务应用能够带来更好的结果,提高自动化率,缩短电话客服处理时间,降低客户挂机的频率,带给客户更有价值的互动体验。

以雅芳公司为例,它是最大的直销公司之一,每天要处理来自全球各处的客户问题。在还没应用自动语音识别技术以前,雅芳客服中心每年有1200万个电话需要处理,企业承担的成本高达1500万美元。

篇5

一、小学生单词语音识别技能培养的意义

(一)单词语音识别技能是小学生单词学习的加速器

单词的掌握一般包括知道一个单词的音、形、义、用法和使用等五个方面。掌握单词的读音是单词学习的一项重要内容。通常小学生读出一个单词一般通过以下三种途径:第一,跟读与记忆单词发音;第二,通过单词的音标读出单词;第三,通过拼读能力读出单词。通过教师示范朗读或听音视频的方式不断跟读,从而建立单词词形与整词声音的连接。这是一种不对词汇作任何区分的、基于机械记忆的学习形式。面对少量单词还可以应付,对于深入的、大量的单词学习是十分不利的,是一种低效的英语单词学习方式。而通过音标读单词需要一个前提条件,那就是儿童必须首先学习并掌握音标系统。这对于小学生来说是十分困难而耗时的,可能会严重抑制小学生英语学习的兴趣。而拼读法作为21世纪初英、美、澳等英语国家政府强制或建议使用于幼儿园和小学低年级英语教学中的方法(于海静,郭满库,2015),是通过建立字母与字母音之间的音形对应关系为基础来培养单词解码能力(包括单词语音与语义识别技能),从而可以读出所见的书面词汇。由此可见,以拼读教学为途径发展的单词语音识别技能能够有效地摆脱单词读音的机械记忆,从而加速小学生词汇学习的进程。

(二)?未视镆羰侗鸺寄苁切?生阅读学习的重要前提

英语阅读能力是英语素养的核心成分,它不但是英语语言学习的内容,也是英语语言学习的手段,其重要性不言而喻。而对于学习阅读的小学生来说,语音与语义识别是学习阅读的主要策略。对于学习阅读的人来说,完成形音义的整体获得需要一个过程。英语作为拼音文字,其语音加工决定词汇通达(林永海,钱琴珍,张必隐,2003),在阅读中的语音激活早于语义激活(陈宝国,彭聃龄,2001)。单词形和义的联系需要语音为中介。另外,阅读认知的核心操作系统――工作记忆以语音环节为基本机制,使得阅读学习的首要任务是建立单词形音的联结,并以此为基础发展阅读理解能力。研究表明,单词认读与阅读理解相关度极高,在控制一般认知能力作用的条件下,单词认读仍可显著解释阅读理解的变异(陶沙,彭鹏,2010:230)。

研究表明,单词识别与解码技能的不足是造成阅读学习困难的主要问题所在(Vellutino,2004)。我国一项研究说明,英语语音加工技能缺陷与阅读困难存在显著相关,汉语视觉加工模式和经验制约英语字形与语音间的对应转录,进而对英文阅读中语义加工造成直接影响(林新事,2008:94)。上述研究侧面反映了单词语音识别技能对阅读能力发展的重要影响。因此,为了高效地提升小学生英语素养,打通语言输入与习得的途径,培养单词语音识别技能便成为小学生有效阅读学习的必要条件。

二、小学生单词语音识别技能培养的核心内容

(一)字母与字母音对应及单音节单词语音识别

建立字母与字母音之间的联结是小学生单词语音识别的基础。英语共有26个字母,其中元音字母5个,分别是a, e, i, o, u,辅音字母20个,分别是b, c, d, f, g, h, j, k, l, m, n, p, q, r, s, t, v, w, x, z,最后一个为半元音字母y。对于5个元音字母,学生应该掌握它们的两种对应关系,即分别作为短元音和作为长元音的字母音与元音字母的对应。对于辅音字母来说,可以将它们分成两组:一组为只有一种字母与字母音对应的字母,如b, f, h, j, k等等;另外一组为有两种字母音的字母,如c, g等等。它们形成特殊而一致的规则,即the C Rule 和the G Rule。也就是说,当元音字母a, e 或u跟在辅音字母c后,这时字母c发字母k的字母音,如cake, cute等等。当元音字母e, i或y跟在字母c后时,字母c发字母s的字母音,如cell, city, cycle等等。对于字母y,要作为辅音和元音字母分别对待。

在形成字母与字母音的对应后,小学生应该学习字母的组合音,这些组合音以极高的频率一同出现在单词开头和结尾部分,掌握这些辅音、元音和元辅音字母组合是发展小学生的“头韵-韵脚”意识,从而完成单音节单词的语音识别。常见的辅音、元音和元辅音字母组合内容与例词见表1。教师在逐渐呈现与练习字母音、字母组合音时,应该不断尝试合成与分解单词,再分解与合成单词,不断训练,达到规则的自动化,从而掌握单音节单词的语音识别技能。

表1 常见的辅音、元音和元辅音字母音组合内容

[辅音字母音组合 bl,cl,fl,gl,pl;

br,cr,dr,gr,pr,tr;

sc,sk,sl,sn,sm,sp,st,sw;

sh,ch,th,wh,kn,ng,ph;

sh:ash,ish,ush;ell,ip,op,ut;mp,ft;nt,lk,lt;

ch:ick,eck,in,op,ess,ip;

each;tch:atch;

th:ing,umb,ink,ick;ath,oth,eeth;

wh:eel,eat,en,ich. 元音字母音组合 ai:ail,aid,ain,ait;

ee:eed,eep,eet;

ea:ead,ean,eat,eal;

oa:oat,oad,oap,oak,oast,oal,oaf;

oo:ook,ood,oon,oose;

ou:ound;ow:own;

oi,oy. 元辅音字母音组合 am,ad,at,an,ap,ab,ag,ack,ant,ang,ank,amp;

ed,en,ell,eg,et,ess,end,ent,est,eck;

id,ig,ill,it,im,in,ing,ink,ish,ick;

ox,ot,op,ob,od,og,om,ock;

ug,un,ut,ub,um,uck,unch;qu,tw;

ar:ark,ard,arn,arm;er;ir:irt;or:ork,ord,orn,orm;

ur:urse,urn;

a-e:ake,ame,ane,ate;

e-e:eve,ete;

i-e:ite,ike,ine;

o-e:oke,ole,ose,ome;

u-e:use,ute.

]

(二)?p音节、多音节单词语音识别

小学生能够正确地读出双音节或多音节单词需要两个条件:第一,能够解码单词中的单个音节;第二,能够将两个或多个音节合成一个单词。因此,解码双音节或多音节单词中的单个音节,并合成两个或多个音节的单词,便是双音节或多音节单词语音识别的主要学习内容。具体来说,儿童的训练可以从四种拼读形式开始,即CVC,-y, le, r-controlled vowels。练习区分单词的单个音节,然后练习将两个单音节合成读出。例如,教师可以为学生提供pencil, happy, little, market, letter等词,通过举例讲解音节的区分与合成,然后根据四种拼读形式提供更多的双音节或多音节单词进行变式练习。

接下来,引导学生区分开音节与闭音节,从而应对正确解码双音节或多音节单词中元音字母的长、短两种发音问题。开音节包括直接以元音字母结尾和以不发音字母“e”结尾两种。教师须重新明确在这两种情况下五个元音字母发字母音,如在paper(pa-per),baby(ba-by),hotel(ho-tel),return(re-turn),exercise(exer-cise),excuse (ex-cuse),conversation(con-ver-sa-tion)等单词中。闭音节指以元音字母加一个或几个辅音字母(r除外)结尾的重读音节,如basket(bas-ket),rabbit(rab-bit),lesson(les-son),dentist(den-tist),similar(si-mi-lar)等等。

(三)特殊单词语音识别

在单词语音识别过程中,教学内容的安排要遵循由简到难、由一般到特殊的顺序。因此,在教授字母与字母音对应及符合规律的单音节与多音节单词识别后,或从符合规则的双音节单词解码后便可以适当引入一些特殊单词的语音识别学习。例如,非重读央元音/?/便是英语中最常出现的元音音素之一,如高频词about,another中的第一字母。因为该音素出现在非重读音节中,其教学显然不能出现在单词识别的最早阶段。

三、小学生单词语音识别技能培养的方法

(一)儿童单词语音识别技能培养方法使用的现状

有学者认为(程晓堂,2010),我国小学生学习英语单词以整体认读为主,也有少数英语教师尝试使用自然拼读法拼读单词。笔者认为,还有一些教师尝试教授小学生国际音标,然后通过单词对应的国际音标转换读出单词。目前,这种形式经常用于小学高年级或初一年段英语教学之中。然而,笔者认为,根据记忆的整体认读法和国际音标注音法均非最适合小学生单词语音识别的方法,尤其是小学低年级学生。而英、美、澳等英语国家通过研究证明对幼儿园及小学生有效的单词解码方式为拼读法教学,有利于提升其阅读能力。鉴于我国英语教学中拼读法使用较少的现状,拼读法作为一种可选择的方法,应该在理论上加深探究,在实践中更多尝试与探索。

拼读法教学旨在培养儿童英语阅读能力,但小学生学习阅读的首要任务是实现单词的语音加工,从而通达词汇,如此方可实现单词形与义的语音转录。这样,最基本的单词阅读方可发生。拼读法就是以英语字母与其独特的发音相匹配为基础解码单词的。英语共有26个字母,对应44个音,大致以70种最基本的拼写形式存在。对于拼读法来说,有综合拼读法(synthetic phonics approach)与分析拼读法(analytic phonics approach)、直接拼读法(explicit phonics approach)与间接拼读法(implicit phonics approach)、系统拼读法(systematic phonics approach)与附带拼读法(incidental phonics approach)之别,但其无非体现两种不同的取向。一种认为系统的、直接的、综合的学习更有效,而另一种认为间接的、偶发的、分析的学习更好。笔者认为,对于外语学习者来说,系统的、直接的、综合的学习是十分必要的,对于初学者更是必不可少。而对于复杂的和个例的单词解码可以在渐进的学习中以间接的、偶发的、分析的方法持续教授。

(二)直接拼读法在小学生单词语音识别技能培养中的使用

系统拼读法强调系统地设计与安排拼读教学内容,以直接法有序教学。而附带拼读法则相反,其要求教师不要遵循有序的拼读内容教学,而是在文本中对偶遇的个别拼读内容进行学习。综合拼读法指将单词中字母或字母组合对应的音读出,然后再将它们整合起来读出整个单词。例如,在教授小学生解码cat这个单词时,教师指导学生将cat这个单词区分出三个字母,即c,a,t,然后让学生读出三个字母的字母音/k, ?, t/,最后将这个三个字母音混合读出形成单词的读音。分析拼读法则不会孤立地读出字母或字母组合的读音。通常,要求学生分析一组含有共同音素的单词。例如,教师引导学生讨论cat, fat, sad三个单词的相似之处,从而学生可以推论出三个词共同含有字母a,对应的读音为/?/。通过上面例子不难发现,就算学生可以发现三个单词共同含有字母a,但在教师没有教授或读出字母a对应的字母音/?/时,学生是无法提取预教的字母音的。由此可见,直接教授字母或字母组合与字母音的对应是单词语音识别不可逾越的前提。

直接拼读法要求首先完成字母和字母音的一一对应,然后再将它们混合形成词汇的语音解码。直接法拼读教学的关键环节是将孤立的字母或字母组合音混合并完成整个单词的发音。间接拼读法与分析拼读法持有相同观点,即不能孤立地教授字母与字母音的对应。可笑的是,分析拼读法恰恰假设学生已经形成了字母与字母音的对应。对于直接拼读教学来说,口语词汇的语音识别要基于准确的孤立的单音,而对于教师和学生来说学得或习得标准的个别字母和字母组合音是十分必要的,否则不准确的孤立音将成为听觉词汇解码的阻碍。因此,在拼读教学中教师要利用各种条件帮助学生获得标准的或更加近似的音。

四、小学生单词语音识别技能培养的具体建议

(一) 全面发展单词识别技能,为儿童阅读学习奠定坚实基础

单词识别能力既包含单词语音识别技能,也包含单词语义识别技能。因此,在小学生单词识别技能教学时要将两者结合起来,两者不可偏废。尽管英语单词的解码需要语音通达语义,但是在单词语音解码教学中可以始终以间接或直接的方式进行单词语义的渗透或学习。另外,值得一提的是初学者高频词汇的解码也应该在起始阶段进行学习。高频词汇的教学应该分成两组来分别对待,对于符合拼读规律的单音节单词应该先学习,而对于符合规律的多音节和特殊的高频词可以随着学生单词识别技能的提升而渐进地学习。高频词的解码与熟练认读是小学生能够流利阅读的重要条件。

单词识别技能不仅有利于儿童词汇学习,更重要的是单词识别与解码技能是小学生阅读学习的主要策略(Aaron,1999:221-244)。在英语早期阅读教学中拼读法备受亲赖的一个重要原因是:它是作为培养初学者英语阅读的一种重要方法。而拼读教学的立身的根本便是,形成字母形音对应,从而实现单词的解码,进而提升与改善学生的阅读学习。尽管拼读法在英语作为母语的教学中经历了曲折的发展,但21世纪伊始它的价值被重新准确定位。由此可见,在进行单词识别技能培养中要始终以促进学生阅读学习为最终目的,也就是说,除了关注单词识别技能本身的发展外,还要兼顾有利于阅读学习发展的其他因素,如语音意识、阅读理解、流利度等。

(二)整合课内外资源,合理安排英语课程与教学

篇6

飞康CDP成功救灾基金公司业务系统

日前,国内某基金公司的IT管理人员发现,由于前一天的误操作,导致其清算系统已经全面故障,严重地影响到了当天下午的清算业务。清算系统是这家基金公司生产系统中最为核心的系统之一,发生故障将直接影响到前台的业务交易正常运行。因此,IT管理人员决定启用CDP灾备系统,将系统恢复到误操作前的最近时间点,以最快的速度恢复系统正常运行。在飞康技术人员的协助下,该公司利用飞康CDP的全回滚和生产磁盘增量同步技术,在1小时内就将出现故障的清算系统全面恢复了正常运行,避免了不可估计的业务、资产及名誉损失。

博科降低虚拟化IT环境中的网络复杂性

日前,博科公司宣布推出Brocade ServerIron ADX 4000系列扩展产品,其中包括高性价比的入门级机箱解决方案ServerIron ADX 4000 ASM-4捆绑包,能够提供业界领先的4~7层交换功能,以帮助客户实现按需、自动化数据中心计算的承诺。专为中型市场企业环境而设计的ASM-4捆绑包使客户能够体验模块化平台的灵活性和可扩展性优势。ASM-4模块可以通过许可证激活的方式按需扩展,使客户能够采用“按需付费”的投资方式,在不增加硬件或从网络移除交换机的情况下,使吞吐量翻一番,构建面向未来的负载均衡网络。

篇7

关键词 语音识别;硬件系统;硬件模块;系统设计

中图分类号TP242 文献标识码A 文章编号 1674-6708(2011)38-0202-01

1 语音智能识别原理概述

语音识别是建立在对人类语言的交互与判断上的,这是一种多维度的识别过程,一般可以分为两个阶段,即信息汇集和识别。具体的识别过程包括了语音信号的前期处理、语音特征提取、建立语音模型库、进行模型的匹配、后期处理等主要的环节。机器人的语音识别实际上一种仿生式的模式,即将语音转化为一直可以对别的语音特征,然后与储存的信息进行对比,并形成对其含义的判断,人类对语音的含义的判断也是这样的过程,只不过人类使用的是大脑而机器人利用的是数据库和芯片,目前占有主导地位的语音识别技术的技术基础是统计模式的识别理论。

2 机器人语音识别系统的硬件设计

2.1 硬件系统的整体构成

语音识别的硬件系统中体的构成应当为了两个大系统构成,即发射端和接收端,即利用主要的芯片系统来接收语音信号,并进行计算和识别,然后利用信号输出端口将形成的指令传输给接收端的执行系统,并以此控制机器人的各个电机和肢体部件,来完成整个语音指令的执行。在这个系统中主要的硬件系统有:微处理器、音频模块、电机驱动模块、避障系统、机器人系统、电源控制模块。具体的系统构成如图1。

2.2 硬件系统的设计

在具有语音识别功能的机器人硬件系设计中应当对前面提到的各种功能模块进行单独的设计和实现,然后利用线路和端口将整个系统连接起来,这样就实现了机器人硬件系统的搭建。

1)电子芯片(微处理器)。在这里应用的是SPCE061A单机芯片。这种语音识别的专业芯片来构建机器人的语音识别和控制系统可以实现机器人的自动运行。这种语音系统的硬件基础就是SPCE061A控制器为核心的语音识别平台。这种SPCE061A是一种具有语音特色的16位控制器,采用的是模块化的结构,内部集成了在线仿真处理器,闪存、静态内存、通用的端口、定时和计数器、中断控制器、通道转换器、电压监控等模块。另外其数据处理核心能够为其提供较高的处理速度,这样就可使其完成16位的运算、DSP内积率波运算、复杂数字型号处理,但同时不需要进行额外接入专用的语音控制芯片辅助其进行语音的编码和解码。因此可以单独完成语音识别和控制,具有体积小、扩展能力强、集成度高、性能可靠、中断处理功能完备,价格低廉等,即节省了成本也降低了设计难度。因此,微处理模块采用了这种单机芯片,并以此为核心开展硬件设计;

2)音频处理模块。音频处理模块的构成是麦克风输入电路和音频输出电路组成。其中麦克风音频采集电路采用的是MICP和MICN,这种设计可以通过MIC形成的波形变化在两个端口位置形成相反的波形,通过两级放大电路的处理,将放大的语音信号传输给ADC进行数字处理。这个数字信号也就是语音训练和进行识别的语音输入源,音频输出模块对识别后的结果节能型输出,采用的是SPY0030音频放大电路,同时播放提示语音,以便于实现智能化的语音控制,以此完成了人与机器人的交互训练;

3)电机驱动系统。在一般的设计中多采用ULN2803集成放大矩阵模块来完成对电动机的驱动,这样可以实现对机器人内部多个电机的正向和反向运行。这个模块有高度集成、简单可靠等优势,为了实现避障功能的实现提供了较好的硬件基础和很好的驱动能力。因为机器人使用的电机都需要实现正反向运行,并且使用的电机数量较多,因此需要一个稳定而功能强大的电机驱动模块。同时也必须可以与微处理芯片和其他系统进行良好的配合;

4)红外线避障控制模块。利用红外线原理构建的红外线避障模块具有红外线发射和接收二极管为核心,发射管所产生的定频红外线信号,接收二极管则负责接收这一频率的信号。当红外线信号基础到前面遇到障碍的时候,红外线所形成的反射信号就被接收管接收,并进行处理,然后通过数字传感器将信号传输到控制主机,然后由主机进行判断并动作。目前设计中的红外线避障模块多采用多为HARP所生产的红外线传感器GP2D12,这种设备的控制范围是10cm~80cm,设备的接口为标准的三线口,适用于智能化机器人;

5)系统电源模块。在以SPCE061A芯片为核心的语音控制系统其电压的要求为3.3V,而I/O端口的电压则在3.3V~5.0V之间。因此在控制板上将出现两种电压,即5.0V和3.3V。系统可以采用3节电池来进行供电,4.5V的直流电源可以通过稳压装置降低到3.3V,为整个系统提供4.5V和3.3V的工作电压。

3 结论

机器人的语音识别功能需要最佳的硬件组合才能够实现较好的控制效果,其中单机芯片是其控制的核心,因此选择SPCE061A这样比较成熟的芯片来作为语音识别硬件系统的核心是有着明显优势的。同时配合其他硬件模块的合理选择就可以实现较理想的控制效果。

参考文献

篇8

关键词:Mel频率倒谱系数;支持向量机;语音识别;特征提取

中图分类号:TP399 文献标识码:A 文章编号:1672-7800(2012)003-0153-02

作者简介:李玲俐(1977-),女,湖北洪湖人,硕士,广东司法警官职业学院讲师,研究方向为数据挖掘与模式识别。

0 引言

语音识别是一种模式识别,就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术3个方面。目前一些语音识别系统的适应性比较差,主要体现在对环境依赖性强,因此要提高系统鲁棒性和自适应能力。支持向量机(Support Vector Machine,SVM)是基于统计学理论发展起来的新的机器学习方法,采用将数据从低维空间映射到高维空间的思想,由支持向量来决定最优分割线,SVM先自动找出对分类有较好区分能力的支持矢量,然后构造出分类器来最大化类与类的间隔,因此有较好的适应能力和较高的分准率。

本文在现有语音识别技术基础上,提出一种MFCC(Mel Frequency Cepstrum Coefficients,Mel频率倒谱系数)+SVM的语音识别方法,实现对几种英文单词的分类。实验结果表明,该识别方法具有较高的准确率。

1 语音识别系统

语音识别过程一般分为3个阶段:信号处理、特征提取和模式识别,如图1所示。

1.1 MFCC特征提取

特征提取是数据挖掘和模式识别中的一个重要步骤。其目的是从原有特征数据中提取出与特定任务,如分类、压缩、识别等密切相关的新特征(或特征子集),以有效地完成特定任务或进一步减少计算量。

研究者通常使用经典的特征提取技术,如MFCC、连续小波变换(Continuous Wavelet Transform,CWT)和短时傅里叶变换(Short-Time Fourier Transform,STFT)来提取语音片段的特征。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。MFCC则是利用它们之间的这种关系,计算得到的Hz频谱特征。由于MFCC具有良好的识别性能和抗噪能力,在语音识别中得到广泛的使用,而且研究人员仍在对MFCC的各种参数进行实验和调整,并通过同其它模型的协同工作来找出提高识别率的方法。

MFCC参数的提取包括以下几个步骤(如图2所示):

(1)预加重。通过一个一阶有限激励响应高通滤波器,使信号的频谱变得平坦,不易受到有限字长效应的影响。

(2)分帧。根据语音的短时平稳特性,语音可以以帧为单位进行处理。n为每一帧语音采样序列的点数,本系统取n=256。

(3)加窗。为了减小语音帧的截断效应,降低帧两端的坡度,使语音帧的两端不引起急剧变化而平滑过渡,需要让语音帧乘以一个窗函数。目前常用的窗函数是Hamming窗。

(4)对每帧序列s(n)进行预加重、分帧加窗后,然后经过离散FFT变换,将s(n)取模的平方得到离散功率谱S(n)。

(5)计算S(n)通过M个滤波器Hm(n)后所得的功率谱,即计算S(n)和Hm(n)在各离散频率点上的乘积之和,得到M个参数Pm,m=0,1,…,M-1。

(6)计算Pm的自然对数,得到Lm,m=0,1,…,M-1。

(7)对L0,L1,…,Lm-1计算其离散余弦变换,得到Dm,m=0,1,…,M-1。

(8)舍去代表直流成分的L0,L1,…,Lm-1,取L0,L1,…,Lm-1作为MFCC参数。

1.2 SVM分类器设计

在线性可分的情况下,SVM构造一个超平面H,设线性可分样本集为(xi,yi),i=1,2,…,n,U∈{+1,-1} 是类别标号。所有在这个超平面上的点x满足:

w・x+b=0

其中:w为权重向量,b为分类阈值。根据结构风险最小化原则,在保证分类间隔最大,即寻找最优分类面的条件下,w和b必须满足如下条件:

yi[(w・xi)+b]≥1

xi为训练样本,在此约束下,求解最优超平面问题可以转换为求函数:Φ(w)=12w2=12(w・w)的最小值。最优问题的解由Lagrange函数的极值点给出:

L(w,b,α)=12w2-∑li=1αi{yi[(w・xi)+b]-1}

αi为Lagrange乘子,对w和b求偏导,并令所求式为零,求得:

∑li=1yiαi=0

对于线性不可分的情况,可以通过非线性变换转化为某个高维空间中的线性问题。即将SVM中的内积x・y由核函数K(x,y)所取代。常用的核函数有:

(1)多项式核函数K(x,xi)=[(x・xi)+b]d,其中d是多项式的阶数。

(2)Gauss核函数K(x,xi)=exp-x-xiσ2 ,其中σ是Gauss函数的宽度。

(3)Sigmoid核函数K(x,xi)=tanh[v(x,xi)+c],其中v和c是尺度和偏置参数。

由经验观察可知,Gauss核函数比其它两种核函数优越,所以本文选用Gauss核函数,对于给定的核函数。最优分类函数为:

yi=sgn∑xi∈wiyik(xi,xj)+

2 实验设置及结果分析

本实验使用的语音信号采用Windows自带的录音软件录制,录音背景为普通环境,录制的语音以Wave 格式保存,采样频率为8KHz,16bit量化,单声道。对10(5男5女)个人进行录音,语音样本分别为6个单词,并且每个人每个词发音9遍,得到540个采样数据。随机抽取2/3的采样作为训练样本集,1/3作为测试样本集。

由上述语音识别系统得到每一种语音的正确分类的样本数,并采用

识别准确率=正确识别的样本数样本总数×100%

得到表1所示的识别结果,包括每种待识别单词以及总计得到的正确识别数和识别准确率。

3 结束语

本文提出了一种采用MFCC特征提取参数,以SVM作为分类器识别几种容易混淆的单词的方法,结果表明,该语音识别方法具有结构简单、高识别精度的特点,可以在语音识别系统中得到实际应用。当然,今后的工作中还要考虑将SVM理论和其它分类方法结合起来,如SVM和隐马尔可夫模型(HMM)相结合、将多类SVM等综合方法应用于更多的语音识别领域。

参考文献:

\[1\] VAPNIK V. The nature of statistical learning theory\[M\].New York:Springer-Verlag,1995.

\[2\] 陈刚,陈莘萌.一种考虑类别信息的音频特征提取方法\[J\].计算机研究与发展,2006(11).

篇9

关键词:动态时间归整算法;隐马尔可夫算法;语音识别

中图分类号:TN912.34 文献标识码:A 文章编号:1007-9599 (2012) 11-0000-02

随着人们对人机交流技术的要求越来越高,语音识别技术应运而生。语音识别是将语音信号转换成相应文本的高技术,是一种重要的人机交互技术[1]。在近二十年,越来越多高水平的研究机构和企业加入到语音识别的研究领域,并开始向市场上提品。其中具有代表性的产品有微软的Whisper系统,Google的Word Search系统,苹果的Siri系统等。

语音识别最重要的性能指标就是识别率,而识别率十分依赖特征参数的训练和识别模型。常用的模式匹配和模型训练技术主要有动态时间归整算法和隐马尔可夫算法。文中就这两种算法特点进行了分析和改进,对基于改进后的算法建立的语音识别系统进行了性能评估和对比。

一、语音识别算法

(一)动态时间归整算法

发音具有随机性,同一个人在不同时间,不同场合对同一个字的发音长度都不是完全一样的。在语音识别的模版匹配中,这些长度不一的发音将降低系统的识别率。为了解决这一问题,我们引入动态时间归整算法(Dynamic Time Warping,DTW)。在语音识别中,DTW算法是较早出现,较为经典的算法,它是基于动态规划(DP)的[2]。

提取参考语音信号的特征参数存入特征模板库建立参考模板,提取待识别语音号的特征参数建立测试模板。DTW算法就是计算参考模板和测试模板各帧矢量之间的距离之和,总距离越小说明相似度越高,最后选取最小的总距离作为匹配结果。

这种识别算法虽然较为简单、有效,但是计算量大,存储空间占用多,响应时间长。因此,文中对该算法进行改进,以避免以上缺点。

改进后的DTW算法将归整函数限制在一个平行四边形中(其中两条边的斜率为1/2,另外两条边的斜率为2)。在计算总距离时只需计算平行四边形之内各交点的匹配距离和累积距离,这样减少了计算量,提高了系统的反应速度,节省了存储空间。

(二)隐马尔可夫算法

隐马尔可夫模型是在马尔可夫链基础上发展起来的一种语音信号统计模型,自从用来描述语音信号后,该模型迅速发展,使得HMM理论逐渐成为语音研究中的热点,语音识别的主流技术。

隐马尔可夫模型HMM是一个双重随机过程,一重是可直接观测的马尔可夫链,用于描述状态的转移;另一重是隐含在观察序列中的随机过程,用于描述状态和观察值之间的统计对应关系。

将HMM用于语音识别系统前,必须解决三个基本问题[3]:

1.模型评估

已知一个观察序列和一个HMM模型,如何计算由此模型产生此观察符号序列的输出概率。

2.最优状态序列搜索

已知一个观察序列和一个HMM模型,如何确定一个最佳状态序列,使之产生的观察序列的概率最大。

3.模型训练

已知一个观察序列和一个HMM模型,如何根据观察序列来确定模型的参数。

针对以上三个问题,可分别用前向-后向算法,Viterbi算法和Baum-Welch算法改进,改进后的HMM算法较传统算法在识别率方面有了明显的提高。

(三)算法比较

基于模版匹配技术的DTW算法和基于随机过程理论的HMM算法是比较有代表性的孤立词识别算法。DTW算法应用动态规划的方法解决了语音信号特征参数序列时间对准问题,克服了语速的差异。DTW算法适用于训练样本较少的情况下,训练过程简单,识别过程较复杂,多用于特定人孤立词语音识别系统。

HMM算法HMM运用状态序列描述观测向量的时间逻辑,通过多变量混合高斯分布表现观测向量序列的空间分布[4]。为了获得高识别率,HMM算法需要大量的训练样本和存储量,训练过程要耗费较多时间,识别过程较简单,多用于连续大词汇量语音识别系统。

二、系统设计实现

语音识别系统由预处理、特征提取、模型库和模式匹配等四个基本单元构成。系统的基本结构如图1所示:

(一)预处理

通过话筒将语音信号变成电信号输入到语音识别系统中。首先对信号进行一系列的预处理,包括采样、量化、加窗、端点检测、预加重等。

采样和量化就是将离散信号分别在时间上和幅度上转化成离散形式。为了滤除低频干扰,提升信号高频部分,对信号进行预加重处理。由于系统对信号的处理都是以短时为前提的,这就要将信号分割成许多语音段,即对语音信号分帧、加窗处理。原始语音信号往往包含无音段和有音段,端点检测就是运用数字处理技术来判断各语音段的起点和终点,从而找到有用的语音成分。文中使用基于短时能量和短时平均过零率的检测方法判定语音信号的起始点和终止点,即双门限比较法。

(二)提取特征参数

经过预处理的语音信号中并不是所有信息都是有用的,这就需要将语音信号经过一次变换,去掉冗余部分,提取代表语音本质的特征参数。文中采用近年来运用比较广泛的Mel频率倒谱参数,先将频谱转变为美尔频标的非线性频谱,接着再转换到倒谱域上[6]。MFCC参数充分考虑了人耳的听觉特性,有很高的稳健性和抗噪性能。

(三)模式匹配算法

篇10

关键词:英语口语;语音识别;英文朗读;评分机制

语音识别技术使人与机器的交流成为现实,它开创了口语移动学习的全新教育方式,受到越来越多的关注。借助互联网,移动学习以其学习时间灵活,学习内容丰富、精炼且片段化等特点,开辟了学习的新理念,让口语学习真正摆脱了时间和空间的限制,使任何人在任何时间、任何地点根据需要进行自主学习成为可能。目前,已有的基于PC的智能英语学习软件,能提供基于计算机的辅助技术,让学习者及时得到发音质量评分的智能化功能,但是基于手机端的口语学习应用不多。

本终端是一款基于Android系统开发的,进行英语口语学习的安卓语音软件。产品结合Google语音识别技术,使用GPRS或WiFi进行移动终端与Google云服务端之间的数据交流,并通过对语音识别结果的处理,最终设计成一个可以进行英语口语专线训练和自主训练的应用Oral Storm。

1 研究基础

Android平台自底层向上由四个层次组成:Linux内核层、Android运行时库与其他库层、应用框架层、应用程序层。它采用软件堆层(software stack),又名软件叠层的构架,主要分为3部分:底层以Linux内核工作为基础,由C语言开发,只提供基本功能;中间层包括函数库Library和虚拟机(virtual machine),用C++开发,最上层是各种应用软件。

2 应用架构及功能说明

专项训练模块主要是对英语口语比较重要的四个发音类别进行系统训练,这4个发音类别分别是清辅音、浊辅音、摩擦音和爆破音。在进入训练界面之前,有对各类发音方法和技巧的介绍,利于用户方便快速地学习口语的正确发音。我们将每种发音训练模式中的单词都分成10个小组,这些单词都是由学校专业英语教师挑选的有代表性的词,适合用于英语口语基础训练。用户在进行完每个小组的单词训练后,系统都会对用户的发音作出评价和打分,对经常出现发音错误的单词,用户可以选择保存,用于以后专门的训练。

自主学习模块是用户根据自身实际需求进行训练的板块。用户先输入想要训练的单词或语句,如果不知道如何发音,可以求助于应用中的英文朗读功能。英文朗读功能是将文本转换成语音信号,帮助用户轻松方便地学习每一个英语发音。用户还可以选择性地保存输入的学习内容,方便以后复习使用。

总之,专项训练模块针对学生英语学习中的四大类发音难题设计,通过专题式的学习、测试和智能评分,给用户提供随身的英语单词学习和测试环境;自主训练模块则专注于为用户提供可定制的英语单词学习专题,通过学习内容的自定义给用户最大限度的学习自由度。

3 研究技术

应用功能的实现主要使用了两大技术,获取语音识别技术和语音合成技术。

3.1 获取语音识别技术

单词发音练习需要使用Google语音搜索服务,因此必须判断当前用户手机是否支持该服务,所采用的方法是通过queryIntentActivities()方法,查询Android系统所有具备RecognizerIntent.ACTION_RECOGNIZE_ SPEECH的Intent的应用程序,点击后能启动该应用。

在Android语音识别应用研究与开发的同时,Google语音服务需要网络支持,所以也需要判断当前用户的网络连接状况,在类中写一方法check--NetWorkStatus()引用ConnectivityManager cwjManager来判断网络是否连接正常。

3.2 语音合成技术

语音合成技术,是一种将文本转换为语音输出的技术,其主要工作是将文本按字或词分解为音素,然后将音素生成的数字音频用扬声器播放或者保存为声音文件,然后通过多媒体软件播放。

Android手机平台,绑定了英文语音引擎,对英文语音提供内置的支持。要将文本转换为语音,首先要检查TTS数据可用,指令TextToSpeech中的Engine ACTION_CHECK_TTS_DATA就可以完成,返回结果为真,表明TTSEngine可以使用。除此之外,还有语音数据损坏和缺少发音数据等原因导致TTSEngine不能使用,这些因素都要考虑。之后是初始化TTS接口,这部分要设置发音语言引擎setLanguage(Locale.US)、发音音量Len(Volume)等。在这个过程中,还需要检测设置的发音语言类型是否可用。

4 结束语

我们开发的口语学习软件Oral Storm,可为训练单词发音提供专业、智能及终端化的一体化学习和测试环境,专题分类科学、全面,涵盖了爆破音、摩擦音等发音难点,可在专题学习后提供智能评分和语音纠正。用户使用这款应用,可以方便快速地学习英语口语的正确发音。

参考文献

[1] 邢铭生,朱浩,王宏斌.语音识别技术综述[J].科协论坛:下半月,2010(3):62-63.

[2] 詹青龙,张静然,邵银娟.移动学习的理论研究和实践探索[J].中国电化教育,2010(3):1-7.

[3] 周丽娴,梁昌银,沈泽.Android语音识别应用的研究与开发[J].广东通信技术,2013,33(4):15-18.

[4] 涂惠燕,陈一宁.基于语音识别和手机平台的英语口语发音学习系统[J].计算机应用与软件,2011,28(9):64-66.