语音识别系统范文
时间:2023-03-26 08:31:45
导语:如何才能写好一篇语音识别系统,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
近年来国内教育信息化趋势更加明显,英语教学活动建立信息化平台是师生所需,改变了早期英语课堂模式的不足之处。语音识别是计算机翻译软件不可缺少的一部分,如图1,主要针对不同语言进行识别处理,帮助学生快速地理解英语知识内涵。语音识别技术主要包括:特征提取技术、模式匹配技术、模型训练技术等三大技术,也是系统设计需考虑的重点。
1)特征提取技术。一般来说,语音识别系统辅助功能涉及到收录、处理、传递等三个环节,这也是语音识别系统设计的关键所在。计算机语言与自然语言之间存在极大的差异性,如何准确识别两种语言的差异性,这是翻译软件识别时必须解决的问题。特征提取技术是语音识别系统的基本构成,主要负责对英语语言特征进行提取,向翻译器及时提供准确的语言信号,提高计算机翻译工作的准确系数。
2)模式匹配技术。语音识别系统要匹配对应的功能模块,以辅助师生在短时间内翻译出语言含义,避免人工翻译语言失误带来的不便。模式匹配技术采用智能识别器,由翻译器录入语音之后自主化识别、分析,减小了人工翻译语句的难度。例如,计算机软件建立匹配模型,按照英语字、词、句等结构形式,自动选择相配套的翻译模式,执行程序命令即可获得最终的语言结果,给予学生语音识别方面的帮助。
3)模型训练技术。设计语音识别系统是为了实现教育信息化,帮助教师解决英语课堂教学中遇到的翻译难题,加深学生们对英语知识的理解能力。语音识别结束之后,翻译器会自动执行模拟训练操作,为学生创建虚拟化的语音训练平台,这也是软件识别系统比较实用的功能。模拟训练技术采用人机一体化设计思想,把翻译器、语音识别器等组合起来执行训练方式,快速地识别、判断英语发声水平,指导学生调整语音方式。
2英语翻译器语音识别系统设计及应用
英语翻译器是现代化教学必备的操作工具,教师与学生借助翻译器功能可准确地理解英语含义,这对语音识别系统设计提出了更多要求。笔者认为,设计语音识别系统要考虑翻译器具体的工作流程,事先编排一套符合翻译软件工作的方案,如图2,从而提高人机语言转换速率。语音识别系统设计及应用情况:
1)识别模块。语音识别方法主要是模式匹配法,根据不同翻译要求进行匹配处理,实现英语翻译的精准性。一是在训练阶段,用户将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库;二是在识别阶段,将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
2)前端模块。前端处理是指在特征提取之前,先对原始语音进行处理,这是预处理操作的主要作用。语音识别系统常受到外界干扰而降低了翻译的准确性,设计前段处理模块可消除部分噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。例如,比较常用的前端处理有端点检测和语音增强。
3)声学模块。语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。声学特征的提取与选择是语音识别的一个重要环节,这一步骤直接关系到翻译器的工作效能,对英语语音识别与学习有很大的影响。因此,声学模块要注重人性化设计,语音设定尽可能符合自然语言特点。
4)搜索模块。英语语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。本次所设计的搜索模块中,其前端是一个语音识别器,识别产生的N-best候选或词候选网格,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。
5)执行模块。实际应用中,语言识别系统凭借执行模块完成操作,对英语语言识别方式进行优化择取,以最佳状态完成英语翻译工作。目前,就英语教学中使用情况,听写及、对话系统等是语音识别执行的两种方式,充分展现了翻译器在语言转换方面的应用功能。(1)听写机。大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数,识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。(2)对话系统。用于实现人机口语对话的系统称为对话系统,英语翻译器中完成了人机对话、语言转换等工作,全面提升了翻译器操控的性能系数。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等,随着语音数据库资源的优化配置,对话系统功能将全面升级。
3翻译器使用注意事项
语音识别系统就是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的高科技。随着高校教学信息化建设时期到来,计算机软件辅助教学活动是一种先进的模式,彻底改变了传统人工教学模式的不足。翻译软件采用数字化元器件为硬件平台,配合远程互联网建立多元化传输路径,满足了英语翻译数据处理与传输的应用要求。但是,未来英语教学内容越来越复杂,翻译器语音识别系统承载的数据范围更广,学校必须实施更新翻译软件产品,才能进一步提升英语智能化翻译水平。
4结论
篇2
关键词 空间增强;谱减法;连续语音识别;自适应;双通道信号
中图分类号 TP393文献标识码 A文章编号 10002537(2014)03006306
虽然自动语音识别(ASR)系统的研究已投入了大量的人员和资金,但是它还不能够像电话一样,作为日常生活的一部分完整地融入到人们的生活当中.其中一个最主要的问题就是自动语音识别系统在噪声和混响环境下,特别是二者混合环境下的识别性能过于低下[1].在大多数情况下,为获得可接受的识别性能,只能依赖于麦克风阵列的使用,即通过使用大量按照特定位置放置的麦克风来获取语音输入和空间信息.大量的ASR研究,使用麦克风阵列得到方向增益,以改善噪声与混响环境中获取信号的质量;采用模式识别技术中的谱减法来消除噪声和处理语音训练集与测试集不匹配问题[2].
在日常应用中,普通用户既不可能随身携带麦克风阵列也不可能精确地放置它们.目前,日常使用的麦克风是与双通道耳机相对应的,它能得到双通道语音信号,却不能得到复杂的空间信息.如果依然采用传统的信号增强方法(例如广义旁瓣抵消技术)来处理双通道信号,以作为语音识别系统的预处理端,那么噪声的消除反而会带来无法接受的语音失真.
谱减法[3]作为另一种消除噪声的技术,可以不依赖麦克风阵列获取输入信号,但是却存在三大缺点:(1)噪声估计误差过大导致噪声消除时语音失真;(2)增强后的语音中含有明显的“音乐噪声”;(3)混响未被处理.
为解决上述问题,本文基于双声道语音信号简单的空间特性,综合使用改进的广义旁瓣抵消空间增强技术和改进的谱减法技术作为语音识别系统的噪声消除和信号放大的预处理端,并基于HTK开发工具设计一个识别性能优异的语音识别系统.
1 系统描述
图1 系统结构
Fig.1 System structure
图1为本系统的整体构架.它由空间增强、谱减法模块和自动语音识别模块3个主要部分构成.
1.1 空间增强模块
因为空间线索是语音识别的主要部分和远场麦克风语音识别的组织焦点,在该ASR系统中,采用PASCAL “CHiME”[4]组织提供的双通道含噪语音信号,利用该信号简单的空间特性可以得到表现优异的噪声估计.
有许多经典的使用麦克风阵列的方法来放大目标信号,例如通过延迟求和方式的波束形成,自适应噪声消除(ANC)以及独立成分分析(ICA).它们使用麦克风阵列得到方向增益,以改善在噪声与混响环境中获取信号的质量.
1.2 噪声消除模块
通常的ASR系统在处理含噪信号时性能大幅度下降,因此,噪音消除是该系统中常见且必须的组成部分.当前主流的噪声消除技术可以分为3大部分.(1)使用时域滤波技术,例如维纳滤波和自适应滤波;(2)尝试还原原始语音谱的谱还原技术,例如谱减法[5]和参数减法;(3)为增强语音结构,有许多基于语音模型的噪声消除技术,例如基于谐波模型的噪声消除.然而,使用这些技术来获得噪声衰减和信噪比的改善,往往会造成语音失真.通常,越干净的噪声消除会导致越严重的语音失真,因此,研究设计一个针对复杂声学环境的ASR系统,在语音失真和噪声消除之间寻找一个平衡点,是非常重要的工作.
1.3 识别系统自适应
通过一些经典的空间滤波和噪声消除技术来处理麦克风阵列在真实环境中获取的声音信号,较直接采集含噪声音,具有更好的听感知质量.但是无论系统设计多么完备,获得的加强声音中依然会有噪声残留和语音失真的问题存在,它们能被正常人轻易的接受和识别,但是目前的ASR系统却不具备这样的能力.当前几乎所有的ASR系统都采用模式识别技术,当测试数据集接近训练数据集时,能够得到非常高的识别精确度.但是噪声残留和语音失真会导致测试数据集完全不同于“干净”的训练数据集,训练和测试不匹配的问题会直接导致ASR系统识别率的降低.
为解决这些问题,前人提出许多的方法,例如模型再训练和自适应,特征变换和归一化[67],建立环境模型和模型特征一体化技术将之使用在自动语音识别模块上,能起到良好的效果.
综合考虑到对上面所述三部分的分析,所有的模块都应该整合为一体,只有通过良好的语音信号预处理和完善的识别系统自适应,才能构架一个更优异性能的ASR系统.
2 系统设计
本文提出一个简洁而具有高鲁棒性的针对CHiME问题的ASR系统.首先,依据双通道信号的空间信息增强它们,然后采用改进的谱减法获得增强信号,作为ASR系统的输入,最终得到识别结果和关键词准确率.
2.1 改进的空间增强
由于存在混响问题,使用传统方法得到双通道信号的空间信息的有效内容非常困难.另外,如果采用传统的信号增强方法,例如基于广义旁瓣相消(GSC) 的波束成型,作为ASR系统的前端,那么噪音消除会带来语音失真[8],会极大地降低ASR系统的识别性能.语音失真是由GSC多路输入抵消器(MC)的窄带自适应滤波器导致的,它既无法良好地消除噪声,同时还消耗昂贵的计算资源.
图2 空间增强
Fig.2 Spatial enhancement
本ASR系统的前端,利用双通道语音信号的优势,移除了典型GSC里的MC模型,使得在空间滤波的同时尽量避免语音失真和降低计算负担(图2).该模块的主要任务是提取参考噪声,而不再进行噪声消除.
4 结论
本文针对语音识别这一交叉性强的学科,打破传统的语音识别系统局限于利用有限的技术,不断挖掘技术潜力,来达到提高性能的研究模式,提出了一种全新的综合性构架,并取得了实质性的成效;考虑到人类听觉的生理情况,结合空间增强层得出的无目标语言的参考噪声,对谱减法模块做了积极的改变.将去除噪声操作从空间增强层移动到了效率更高的谱减法层,将噪声估计移动到空间增强层,使得整个系统的分工更加明确,以降低耦合,提高鲁棒性;使用了倒谱均值归一化实现标准39维梅尔倒频谱系数,为语音识别模块加入基于最大后验概率的自适应训练,提高了训练效率和系统整体性能.
参考文献:
[1] 宋志章,马 丽,刘省非,等.混合语音识别模型的设计与仿真研究[J].计算机仿真, 2012,29 (5):152155.
[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.
[3] 张 满,陶 亮,周 健.基于实值离散Cabor变换的谱减法语音增强[J].计算机工程与应用, 2012,48(29):109113.
[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.
[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.
[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.
[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.
[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.
[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.
篇3
以下是来自现场的报道。
市场变化提出新需求
搬迁至新物流中心
神田业务支持公司成立于1974年,当时与长崎屋合资,主要负责服装配送。该公司在日本最早引进了大型托盘输送机,曾一时成为业界热议的话题。2002年,3家分公司合并后统一命名为神田业务支持公司。
公司现任总经理吉林正和先生当时已经进入公司,他回顾公司的发展历程时说:“30多年来,公司经营的物流业务几乎都集中在服装领域,因此积累了丰富的服装物流经验。近些年,公司的物流设施及分拣设备等已开始老化,为此建设了新的物流中心。同时,为适应客户新的需求,我们准备配送服装以外的货物,因此决定引进语音识别系统。”
目前,习志野物流中心处理的货物以服装为主,同时也负责配送鞋类以及其他日用品,据说已接到约20家客户的业务委托。物流中心根据客户订单的要求进行分拣、贴标签等操作,然后向全国配送。
服装类商品主要来自中国大陆及台湾、越南等地,平均每天发送10万件左右,需要投入包括物流中心职员和小时工在内的50~60人从事物流作业,并根据业务量进行灵活调整。
适应市场变化
在公司的旧址茜浜,仓库内的主要设备除了大型托盘输送机外,还有自动分拣机。如果要继续使用这些设备,物流中心一层需要拥有2310平方米的面积,并且老化的设备也需要大笔资金进行维修,如此看来实属浪费。可以说,继续使用大型设备的外部条件发生了变化。
自动分拣机每小时的处理能力达2000件,这是人工作业望尘莫及的。如果不使用分拣机,根本不可能达到2000件/小时的处理能力,那么其他设备也都会闲置下来,其结果将是物流中心无法应对市场的变化。
神田公司经营策划室的松尾健太郎科长谈到:“考虑公司业务范围的变化,我们的方针是保证低成本的同时,新系统要能够应对市场的变化。”
这个新系统就是“语音识别系统”。
选择语音识别系统
耳、眼、手、口总动员
吉林总经理谈到:“在建设新物流中心时,神田面临的最大问题是建设资金,因此我们要控制初期投资。如果使用自动分拣机,至少需要2~3亿日元的资金,但我们的总预算只有1亿日元。而且还要求必须保证订单的交付时间。最终,我们选择了语音识别系统。”
除软件外,新物流中心引进的设备只有挂在腰间的便携式终端和耳机,共25套。包括基础系统改造在内,总投资共6000万日元。
实际上,神田公司从几年前就已开始研究语音识别系统,只不过一直没有对外公开。
新物流中心处理的货物仍以服装为主。通常,以箱(盒)为包装的物品是很容易处理的,数量统计也不易出错。但服装往往装在塑料袋中,既薄又轻,进行拣选操作时,如果工作人员一只手拿着无线终端,另一只手拿着塑料袋,不容易读取条码标签,又容易数错数量。此外,服装的一大特点是颜色、规格多,SKU多,因此,如果使用手持终端进行操作将非常费力。
现在使用语音识别系统,终端挂在腰间,解放了双手,操作人员可以用双手完成拣选作业。操作人员通过耳机得到系统指令的同时,可以立即回应,而不需要“看明细”、“按开关”的动作,能够集中精力进行拣选。
松尾科长说:“过去,物流现场的操作在很大程度上依赖于‘眼睛’,所有终端和明细单都必须用眼睛来判断,如果看错了。就会直接导致发错货。现在有了语音识别系统,其最大的魅力就是通过‘听’接受指令,用‘眼’和‘手’来确认,用‘说’来回应,让两手同时工作。这就是感觉器官的总动员。由此带来工作准确率和效率的大幅提高。”
这也是神田公司选择语音识别系统的初衷。
语音拣选解决方案在世界的发展
回顾历史,在上世纪90年代,日本有几家公司曾引进过语音识别系统,但由于当时的识别能力有限,结果半途而废。之后,经过改良的语音识别系统再度登场,尤其是在欧美物流界颇受欢迎,其中VOCOLLECT公司开始崭露头角。
特别值得一提的是,世界零售巨头沃尔玛把语音识别系统作为标准化配置的系统,在其世界各地的物流中心都在使用。早在3年前,日本国内的沃尔玛旗下的西友・三乡物流中心业也已引进了VOCOLLECT的产品。
此后,众多经销商的市场拓展行动终于开启了语音拣选的世界市场之门。VOCOLLECT公司于2006年成立了VOCOLLECT日本分公司,同时在东欧、南美也逐渐打开市场,目前年销售额近100亿日元,占世界同行业销售的80%。
承担神田公司语音系统建设项目的日本优利公司售后服务事业部矢岛孝安部长说:“人们往往认为只凭借声音并不十分可靠,但VOCOLLECT的产品解决了这一难题。其识别系统和硬件设备组成了堪称完美的系统。”
VOCOLLECT产品的特性
VOCOLLECT日本分公司总经理塞萨尔・西森介绍说,市场上的其他产品大多是把几家公司的终端和软件组合在一起,而VOCOLLECT则根据物流现场的实际需要,从硬件到软件都是自主研发的,具有非常实用的语音识别功能,能够用日语应答就是其一大特色。
如何确保语音识别的精度是使用中的关键问题。塞萨尔・西森总经理认为,要提高语音识别的精度是有前提的。语音识别的基本条件是“指定说话人”和“不指定说话人”,在日本,其他公司都选择了“不指定说话人”,唯独VOCOLLECT公司选择了“指定说话人”。塞萨尔・西森总经理指出,在被噪音环绕的物流和生产现场,“不指定说话人”的方式存在很多问题。
“不指定说话人”即任何人的声音都可能被确认。因为它忽略了每个人声音的差异,那么其识别能力自然低下,特别是在噪音大的场所,附近几个人同时作业,如果别人的声音一旦被确认。必将出现差错。
VOCOLLECT公司的“指定说
话人”的方式,是根据每个人所发出的声音的频率而设定的,具有声音识别功能。这在很大程度上提高了识别精确度。在实际操作中,只要改变用户名、输入ID号,就能够直接调出所需的信息,因此在登录系统后,其他工作人员也可以使用。
当然。每个工作人员初次登录时,都需要经过多次练习,登录加练习的时间大约在20-30分钟。因为设有语音矫正功能,经过几次练习,工作人员就可以熟练掌握。
此外,终端设备的坚固性也非常突出,即使跌落地面,或被踩、被压,都能保持完好无损。这给工作人员带来安全感,可以全神贯注地投入拣选工作。
构建并起用系统仅耗时3个月
神田公司选择日本优利推荐的VOCOLLECT公司的语音识别系统之前,已对该系统的结构和实用性做了全面、细致的调查和论证。
吉林总经理说:“因为我们是首次使用语音识别系统,因此必须进行全面的考察。在考察3家日用品批发商使用该系统的效果时,我们发现该系统不仅能用于分拣,还能用于盘点。这也是我们选择它的一个重要原因。事实证明这个系统是完美的。”
接下来的系统设计,神田公司仅给优利公司和VOCOLLECT公司3个月时间。在此期间,神田为了让员工尽快进入状态,在现场进行实地演示。2008年8月15~16日,公司在搬迁的同时安装新系统,18日就开始正常发货了。
下面介绍语音识别系统的实际应用。
货物初次分拣
1、2、总体分类
语音识别系统主要应用于服装的发货流程。
图1、图2是位于物流中心二层的存储区。每天上午,操作人员根据发货指示,首先进行总体分类,即把当天需要发的货按款式分别集中在台车上的纸箱中。这里的拣选作业是对照产品明细进行的。
3 二次分拣
在相邻的拣选区,货物按照店铺别进行分拣。在图3中,左边是使用手持终端进行扫描,右边是使用语音识别系统进行拣选。
4、5手持终端+输送机
总体分类完成后,把纸箱放到输送机上,按发货店铺的不同,用手持终端逐一进行扫描。
因为每件货物和产品明细都要进行扫描,因此排除了款式错误的可能。但因为是单手作业,尤其对于较薄的服装,产品数量容易弄错。偶尔也会发生无法读取条码标签的情况,或者标签被翻转放置,此时操作起来相当费力。
6、7、台车+手持终端
图6是台车分拣区。台车底层放置了4个空周转箱用于调节高度,上层的4个周转箱分别代表4个店铺,操作人员同时处理4家店铺的货物,操作非常快捷。当然。通道,必须留有足够的宽度,以保证台车通过。
使用语音识别系统进行拣选
8~11 语音识别拣选
前面提到的输送机传送来的周转箱到达此处,按照发货店铺的不同依次进行拣选。此时操作人员通过耳机接收指示,用麦克进行回应,在“是”、“下面”的应声中进行分拣作业。不仅双手可同时操作,并且不需要看手持终端显示的数据,只需用眼睛确认发货明细上的代码即可。
操作人员听到的是什么样的指示呢?是商店代码、货物代码以及拣选的数量等,速度很快,听到指示后必须立刻做出回应。按照操作人员的话说:“声音的节奏逐渐变快,我们已经习惯了这样的速度。”由于每个人的听力和反应速度存在差别,物流中心根据这一差别安排操作人员的岗位。
操作人员做出回应后。下面的指示随即就到。在这种快节奏中,几乎没有等待指示或闲下来的时间。
塞萨尔・西森总经理说:“如果是使用手持终端,必然存在等待指令的时间。使用语音识别系统后,节省了操作时间。一旦有空闲的时间,操作人员反而会不习惯。”
VOCOLLECT的设计中包含了劳动心理学原理,因为操作人员的腰间携带了便携终端,每个人可以调节适合自己的速度。
系统投入使用后,操作人员的熟练程度不断提高,人均处理能力由原来每小时200~300件提高到500~700件。
此外,夏装和冬装有所不同,操作效率也存在差别,但结果却比预期提高了50%。
12、13、不同商店的发货明细及标签
根据语音指令做好的发货明细上,标有货物代码和商店代码,暂时贴在货箱的外面(图12),待货箱装满后,再把发货明细放入箱中,然后把箱子放到输送机上。
14、检验
通过语音识别系统拣选的货物。因为没有读取条形码,因此在包装前需要检查一遍。数量少时只要确认条形码即可,数量多时全部都要进行检验。
15、无线传输
通过2.4GHz的无线电波频率,无线终端与服务器联网后,进行数据交换。
16、充电
在办公室一角的架子上,放置了25台充电器,以便为终端进行充电。每次的充电过程需要8小时。
17、语音系统的管理
在同一办公室内设置了语音系统的管理器。画面上显示的是神田公司的WMS与合作公司VOCOLLECT的管理过程。
贴标签、包装、发货
18、19、贴价格标签、过检针
贴价格标签、过检针的操作也在物流中心二层完成。
20、21、搬运发货箱
货箱打包完毕后码盘,托盘货物用叉车搬到垂直输送机,送往一层出货区。
22、23、装车
在出货口,货物装上卡车,送到各店铺。
目前,像这样成功应用语音识别系统的案例在日本还不多见。吉林总经理对于初次引进语音识别系统是这样评价的:对于习惯了以往传统分拣方法的操作人员来讲,他们完全没有不适应的感觉,反而更喜欢现在极富节奏感的作业。
“要通过改善工作流程,使所有人员都适应语音识别系统,不断提高工作效率。我们不要求最好,只追求更好”。吉林总经理说。
篇4
关键词 语音识别技术 听觉系统 仿生学 智能 机器人
中图分类号:TN912.34 文献标识码:A
1语音识别技术
1.1语音识别技术简介
语音识别技术主要分为两类,一是语音意义的识别,一种是目标声识别。第一个被称为语音识别,它是根据声音的成词特点对声音进一步分析,主要应用在人工智能,人机对话和快速输入等领域。通过访问声音的特征,从目标语音中进行提取,该项技术可以区分多目标语音的种类,确定目标,主要用于战场目标识别领域,海上侦察系统,预警系统,军事声纳识别,车辆声音识别,火车预警系统,动物个体的语音识别和家庭安全系统等。
科技研究人员通过对语音信号处理技术进行深入的研究,结果发现:人的听觉系统的声音配合具有独特的优势,它能准确地提取目标的声音特征,准确地辨别声音的方向和内容分类,所以基于仿生听觉系统的目标声识别技术备受现代前沿科技的关注。针对目标声音识别系统的研究工作成为了现代语音识别技术研究的一个热门方向,不少科技研究人员正在积极探索先进可行的仿生学理论,特征提取技术和语音识别技术。
1.2语音识别技术的研究现状
语音识别技术主要是通过对监测数据的声音特性分析,得到声音特性的样本文件。语音识别技术是一种非接触技术,用户可以很自然地接受。但语音识别技术和其他行为识别技术具有共同的缺点,即输入样本的变化太大,所以很难完成一些精确的匹配,声音也会伴随着速度,音质的变化而影响到信号的采集和结果的比较。
在语音识别中,语音识别是最早也是比较成熟的领域。随着越来越多的应用需求,识别声音并不局限于语音识别,人们开始深入研究目标识别技术的非语音识别,该项技术已经参照了成熟的语音识别技术的一部分,但由于各自的应用环境和实际的音频特征之间的差异,该技术还存在一些差异。
1.3语音识别技术的实际应用
在民用方面,目标声音识别系统可以应用于门禁系统,网络安全,认证,智能机器人,动物语音识别,电子商务和智能交通等领域。在智能交通领域,利用来自车辆识别模型的运动音频信号,可以实现交通信息的智能化管理。在智能机器人领域,机器人目标声音识别系统可以作为机器人的耳朵,通过环境声音识别并确定声音的方位,然后再反应外界的声音,因此可以将其当作家庭自动化服务系统和安全系统。在动物的语音识别领域,可以根据害虫声特征来区分害虫种类,根据不同的害虫采取不同的措施。在网络应用领域,在关于各种在线服务支持的语音识别技术新项目开发中,可以提高网络的服务质量,给人们的生活带来方便。现在,美国,德国和日本都开了电话银行,语音代替原来的密码和使用印章,简化了工作服务流程,提高工作效率。
在军事上,目标声音识别技术来自于第二次世界大战,在探测敌人的炮火和潜艇时,起着重要的识别和定位作用。但由于计算机技术,信号处理技术,光电检测和雷达检测技术快速的发展,使声探测技术发展得十分缓慢。直到现代的战争,研发了使用于战争中的三维信息,全方位定向,反欺诈、欺骗、干扰和反侦察、监视,在隐身与反隐身的现代战争中为国家的国防事业做出了不可磨灭的杰出贡献。通过电,磁,光学和雷达探测技术和主动检测技术来完成侦察任务已经不能满足现代战争的需求。在武装直升机技术成熟的当代,隐形轰炸机和其他高科技武器都有了反射功率,抗电磁干扰,反辐射的功能,特别是快速发展的数字技术和计算机技术,迫使各国为了实现对目标的定位跟踪和噪声识别而重新开始研究被动声探测技术,关注声检测技术。在未来战争中,武器装备发展的一个重要趋势是智能化、小型化,一个重要的特点是具备目标识别的能力,并根据不同的对象使用不同的攻击方法。
2听觉系统
为了设计一个更精确的目标声音识别系统,越来越多的学者开始深入研究仿生学领域。通过研究发现,人类的听觉系统在声音的物理方面具有独特的优势,声音特征可以准确提取目标识别中声音的方向,种类和含量,而且还可以提高抗噪声能力,所以基于人基于语音识别技术的听觉系统已经成为目前的研究热点。
人类听觉仿生学是模仿人耳的听觉系统和生理功能,并通过建立数学模型,根据数学分析原理得到的听觉系统。它涉及声学,生理学,信号处理,模式识别和人工智能等学科,是一个跨学科研究领域的综合应用。该技术已在军事,交通,银行,医疗治疗的许多方面取得了重要应用,是人类实现智能生命的重要研究课题之一。
人类听觉系统的处理能力大大超过目前的声音信号处理水平。从人类听觉系统的心理和生理特点视角,许多研究人员对接听过程中的语音识别进行深入的研究。目前,许多学者提出了不同的听觉模型,这些模型大多是一些基于语音识别和语音质量评价系统的听觉模型,模拟人耳听觉功能的生理结构,这些应用处理方法大大提高了系统的性能。
参考文献
篇5
关键词:凌阳单片机;语音识别;家居控制;Android;蓝牙通信
Abstract:This paper studied the technology of speaker-dependent recognition based on Sunplus SPCE061A, voice recognition technology will be applied to the home control system. Proposed a control scheme which is convenient operation,easy to expand, and applicable to home applications. The system will be analyzed from the perspective of hardware circuit and software design. Also in the Google App Inventer platform, built out a control software based on Android smartphone’s Bluetooth communication.The tested results showed that the system has successfully realized the voice technology appliances and Android smartphones remote control technology.
Key words:Sunplus;voice recognition;home control;Android;Bluetooth communication
随着科技智能化的发展和社会生活水平的不断提高,人们对家居环境方便快捷的要求也随之提高,智能家居的概念成为了一个热门话题。在智能家居系统中,语音识别和远程控制的应用打破了常规的家用电器局域性控制局限,已经成为了具有竞争性的新兴高技术产业,在智能家居控制系统上应用非常广泛。本文研究了基于SPCE061A单片机的特定人语音识别技术以及智能手机蓝牙通信技术,并将其成功应用于家用电器的控制上,用户可以利用语音命令和Android手机操作方便快捷地控制电器的开关动作。
1 系统总体设计
系统采用凌阳16位SPCE061A单片机为核心控制器,由蓝牙串口透传模块ATK-HC05、MIC输入模块、扬声器、液晶显示器、按键组成,利用SPCE061A内置的语音模块,将麦克风采集到的语音信号与事先训练好的语音库的特征语音进行对比,根据语音辨识结果产生控制信号,进而控制家用电器[1]。系统还增加了无线蓝牙通信功能,由Android智能手机发送事先规定的指令,蓝牙模块接收后将数据交给控制器处理,产生的控制信号将发送给执行器对家电进行控制。系统还设置了人性化的液晶人机界面和指示灯方便用户操作。用户可以通过键盘对系统进行复位、重新学习语音命令的操作。系统总体结构框图如图1所示。
2 系统硬件设计
凌阳16位单片机SPCE061A在硬件结构和指令系统上都非常适用于语音信号处理,其主要的特点为:速度快,多中断,多个A/D转换器,特别是具有音频输出功能的双通道10位D/A转换器,具有自动增益控制功能与内置传声放大器的A/D转换器[2]。本设计采用具有DSP功能并内置声音A/D转换器的凌阳单片机,可以使得系统大大简化。
SPCE061A的A/D转换器有8个通道,其中有一个是MIC_IN输入,专门对语音信号进行采样。MIC选用驻极体话筒,其偏压由SPCE061A的VMIC脚提供。MIC输入模块电路结构简单,只需外接三个电阻和电容以对电流信号进行滤波。
SPCE061A提供双通道10位的D/A输出AUD1、AUD2,每个通道的输出能力是30mA。为了能驱动扬声器放音,将输出电路设计为由负载电阻和三极管8050组成的功放电路[3]。
2.1 最小系统组成
最小系统接线如下图2所示,在OSC0、OSC1端接上晶振及谐振电容,在锁相环压控振荡器的阻容输入VCP端接上相应的电容电阻后即可工作。其它闲置的电源端和地端接上0.1?F的去藕电容以提高抗干扰能力。
2.2 蓝牙通信电路
ATK-HC05是一款高性能的主从一体蓝牙串口模块,该模块支持非常宽的波特率范围:4800~1382400,并且模块兼容5V或3.3V单片机系统[4]。
模块与单片机连接最少只需要4根线即可:VCC、GND、TXD、RXD。其中VCC和GND用于给模块供电,RXD和TXD分别为串口接收脚和串口发送脚,分别连接单片机的TXD和RXD进行通信。
ATK-HC05模块与单片机系统的典型连接方式如图3所示:
3 系统软件设计
本课题的软件主要包括两部分:语音控制和蓝牙通信,采用C语言编程。该系统的智能手机控制软件是在MIT/Google App Inventer平台下搭建的,App Inventor是一个完全在线开发的Android编程环境,抛弃复杂的程式代码而使用积木式的堆叠法来完成Android程式。Google App Inventor用户能够通过该工具软件使用谷歌的Android系列软件自行研发适合手机使用的应用程序[5]。
3.1 语音控制程序流程图
语音控制程序流程如图4所示。该控制程序主要包括两个部分,即语音训练和语音识别。语音识别部分则实现对特定人发出的语音命令与系统储存的语音命令比较,并根据比较结果产生相应的控制信号。
程序执行步骤如下:程序开始运行时,首先将RAM中的语音模式擦除,为下面的语音训练的存储做准备。然后按照训练提示音依次训练触发名称。每一条语音命令需要训练两次,这两次训练会自动作出比较判断。当训练人两次发出的语音命令在误差允许范围内则判断为训练成功,同时将训练人的发音特征储存到系统中,否则程序返回上一层对该命令再次进行训练,直到语音命令完全训练成功。
当系统提示语音训练完毕后,程序随即进入识别阶段。系统首先对语音识别器进行初始化,同时麦克风会播放提示音,提示训练人此时可以对控制系统发出语音命令。处理器将采集的语音信号进行处理,并与存储器中训练人的语音样本进行比较,根据比较结果产生相应的控制信号从而驱动设备动作。语音识别过程循环进行,完成语音命令的控制任务后系统等待训练人再次语音命令[6]。
3.2 蓝牙通信
由Android移动设备发送事先规定好的数据指令,系统中的蓝牙模块接收到后将数据交给单片机处理,单片机将接收到的指令和预先规定好的指令进行比较,产生控制信号传送给被控对象,从而实现Android智能手机对电器设备的控制。蓝牙通信流程图如图5所示。
3.3 Android软件设计
App Inventor for Android,它是一个基于网页的开发环境,即使是没有开发背景的人也能通过它轻松创建Android应用程序。App Inventor可以让开发者抛开复杂的程序代码,使用搭积木式的方法来完成Android应用程序。
搭建应用程序需要准备以下材料:
⑴Android系统智能型手机
⑵蓝牙串口透传模块(本文使用ATK-HC05)
⑶单片机系统开发板(本文使用凌阳SPCE061A)
首先要有一个谷歌账户,并且申请了开发App inventor的权限。
登录到App inventor开发界面可以看到一个空页面,点击“new”创建一个新项目,在出现的对话框中输入创建的app的名字,便可以开始对应用程序的编辑。
App Inventor由两个部分构成:设计视图和块编辑视图。开发者可以在设计视图中完成添加按钮、文本框等程序外观的设计,设计视图就是一个网页;在块编辑视图进行真正的代码编辑,块编辑视图就是一个Java应用。如果将Android设备连接到了电脑上,还可以随时在手机上看到应用程序的修改。
Android软件设计结构图如图6所示,此程序表示当打开Android手机的蓝牙功能后,获取可连接设备的地址。当连接成功后按下发送按钮,Android手机会经由蓝牙发送指令数据给当前地址的接收端,从而实现智能手机对电器设备的远程控制。
4 结论
本设计采用凌阳单片机SPCE061A作语音识别处理器,硬件电路简单,控制灵活;选用适合特定人孤立词识别的语音特征和识别方法,处理速度快,识别率高,可满足实时语音识别的需要。同时使用者可以根据自己的需要改变应答反应(包括语音输出和控制输出),就可以实现对多种电器设备的控制,如电视机开关及选台、音量调节等操作。该系统可扩展性和灵活性强、成本低廉,在智能家居方面具有良好的应用前景。
[参考文献]
[1]王中强,杨坤,俞一奇,张志美,程立英.基于SPCE061A单片机的智能小车的设计[J].科技资讯,2013,(18):88~89.
[2]陈海宴,吕江涛,李瑞.凌阳16位单片机经典实战[M].北京航空航天大学出版社,2011-7-4:12-13.
[3]李金波,田民.基于单片机的智能家居系统设计[J].自动化技术与应用,2010,29(6):125~128,131.
[4]广州星翼电子.蓝牙串口模块[EB/OL].[2013-12-25].http:///product/showproduct.php?lang=cn&id=31.
篇6
【关键词】语音识别技术;发展趋势
语音识别是一门交叉学科。语音识别研究经历了50多年的研究历程,经过50多年的积累研究,获得了巨大的进展。特别是近20年来,语音识别技术取得了显着的进步,并逐步的走向市场。在未来的日子里,语音识别技术将应用更为广泛。
一、语音识别技术概述
语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。
广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子,例如对一些特殊人名、地名的电话监听等。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。
二、语音识别的研究历史
语音识别的研究工作始于20世纪50年代,1952年Bell实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。
1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。
60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。
进入90年代后,语音识别技术进一步成熟,并开始向市场提品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&;T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨资。同时汉语语音识别也越来越受到重视。IBM开发的ViaVoice和Microsoft开发的中文识别引擎都具有了相当高的汉语语音识别水平。
进入21世纪,随着消费类电子产品的普及,嵌入式语音处理技术发展迅速[2]。基于语音识别芯片的嵌入式产品也越来越多,如Sensory公司的RSC系列语音识别芯片、Infineon公司的Unispeech和Unilite语音芯片等,这些芯片在嵌入式硬件开发中得到了广泛的应用。在软件上,目前比较成功的语音识别软件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及开源软件HTK,这些软件都是面向非特定人、大词汇量的连续语音识别系统。
三、语音识别技术的发展现状
语音识别技术通过全球科学家的共同努力,经历半个多世纪的研究,目前已经发展到了接近实用的阶段。在实验室环境下,大词汇量的朗读式连续说话的宽带语音信号的平均识别率可以达到90%以上。正式有了如此高的识别率之后,语音识别技术慢慢地从实验室演示系统逐步走向实用化商品。以IBM Via Voice和Dragon Dictation为代表的两个听写机系统的出现,使“语音识别”逐步进入大众视线,引起了广泛的社会关注。
由于校对和更正识别的错误很麻烦和浪费时间,这样便降低语音识别的优势。同时,由于使用的环境或讲话口音习惯等因素的影响,语音识别的内容大大降低,识别的内容不能达到100%的正确,所以很多人认为目前的语音识别系统还无法满足实用要求。
目前,AT&T和MIT等将语音识别技术应用在一些有限词汇的特定任务上,如电话自动转接、电话查询、数字串识别的任务中,当讲话的内容是系统所存储的内容存在的,且使用环境的声学特性与训练数据的声学特性相差不太大时,语音识别的正确识别率可以接近100%。但是,在实际使用中如果这些条件被破坏,则会对识别系统造成一定的影响。
我国的语音识别研究一直紧跟国际水平,国家也很重视。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。
四、语音识别技术发展趋势
语音作为当前通信系统中最自然的通信媒介,语音识别技术是非常重要的人机交互技术。随着计算机和语音处理技术的发展,语音识别系统的实用性将进一步提高。应用语音的自动理解和翻译,可消除人类相互交往的语言障碍。国外已有多种基于语音识别产品的应用,如声控拨号电话、语音记事本等,基于特定任务和环境的听写机也已经进入应用阶段。这预示着语音识别技术有着非常广泛的应用领域和市场前景。随着语音技术的进步和通信技术的飞速发展,语音识别技术将为网上会议、商业管理、医药卫生、教育培训等各个领域带来极大的便利,其应用和经济、社会效益前景非常良好.
虽然语音识别在过去的20年里有了很大的发展,但是,仍然存在很多的不足,有待于进一步的探索,具体可分为以下几个方面:
1.提高可靠性。语音识别技术需要能排除各种声学环境因素的影响。在比较嘈杂的公共环境中,人的意识会有意识的排除非需要的声学环境因素,这对语音识别系统而言,是很难做到的。另外,在日常生活中,人类的语言常常具有较大的不确定性,比较随意,并带有明显的言语习惯。这同样会给语音识别系统很大的识别麻烦。目前,在提高语音系统在不同环境中的可靠性,同时要应用现代技术让语音识别系统更加智能化,掌握人们语言随意性的部分规律,以达到最佳的识别效果。
2.增加词汇量。系统可以识别的词汇的数量是系统能够做什么事情的一个重要度量。一个语音识别系统使用的声学模型和语音模型如果太过于局限,当用户所讲的词汇超出系统已知的范围时,则语音识别系统不能准确的识别出相应的内容,比如,当突然从中文转为英文、法文、俄文时,计算机就会常常输出混乱奇怪的结果。但是,随着系统建模方法的不断改进、搜索算法效率的提高以及硬件资源的发展,未来的语音识别系统可能会做到词汇量无限制和多种语言混合,这样用户在使用的时候可以不必在语种之间来回切换,这样就能大大减少词汇量的对语音识别系统的限制。
3.应用拓展。语音识别技术可以用于把费脑、费力、费时的机器操作变成一件很容易很有趣味性的事,比如,当人们出现手忙、手不能及以及分身无术的场景时,通过语音识别系统的模型构造,则能够在象驾驶室、危险的工业场合、远距离信息获取、家电控制等各个方面,语音识别技术可能带动一系列崭新或更便捷功能的设备出现,更加方便人的工作和生活。其应用的范围和前景非常广泛。不仅能够应用于日常生活,更重要的会带来生产方式的革命,是下一代智能化控制的基础。
篇7
摘要:本文简要介绍了语音识别技术理论基础及分类方式,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别技术的发展前景和应用。
关键词:语音识别;特征提取;模式匹配;模型训练
Abstract:This text briefly introduces the theoretical basis of the speech-identification technology,its mode of classification,the adopted key technique and the difficulties and challenges it have to face.Then,the developing prospect ion and application of the speech-identification technology are discussed in the last part.
Keywords:Speech identification;Character Pick-up;Mode matching;Model training
一、语音识别技术的理论基础
语音识别技术:是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高级技术。语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。
不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。
(一) 语音识别单元的选取
选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。
单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。
音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。
音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。
(二) 特征参数提取技术
语音信号中含有丰富的信息,但如何从中提取出对语音识别有用的信息呢?特征提取就是完成这项工作,它对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。对于非特定人语音识别来讲,希望特征参数尽可能多的反映语义信息,尽量减少说话人的个人信息(对特定人语音识别来讲,则相反)。从信息论角度讲,这是信息压缩的过程。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。
也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
(三)模式匹配及模型训练技术
模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配。
语音识别所应用的模式匹配和模型训练技术主要有动态时间归正技术(DTW)、隐马尔可夫模型(HMM)和人工神经元网络(ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markor链的特征要靠可观测到的信号特征揭示。这样,语音等时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markor链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM,集DHMM和CHMM特点)。一般来讲,在训练数据足够的,CHMM优于DHMM和SCHMM。HMM模型的训练和识别都已研究出有效的算法,并不断被完善,以增强HMM模型的鲁棒性。
人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的,但ANN又不个有HMM模型的动态时间归正性能。因此,现在已有人研究如何把二者的优点有机结合起来,从而提高整个模型的鲁棒性。 二、语音识别的困难与对策
目前,语音识别方面的困难主要表现在:
(一)语音识别系统的适应性差,主要体现在对环境依赖性强,即在某种环境下采集到的语音训练系统只能在这种环境下应用,否则系统性能将急剧下降;另外一个问题是对用户的错误输入不能正确响应,使用不方便。
(二)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,这就是所谓Lombard效应,必须寻找新的信号分析处理方法。
(三)语言学、生理学、心理学方面的研究成果已有不少,但如何把这些知识量化、建模并用于语音识别,还需研究。而语言模型、语法及词法模型在中、大词汇量连续语音识别中是非常重要的。
(四)我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等分面的认识还很不清楚;其次,把这方面的现有成果用于语音识别,还有一个艰难的过程。
(五)语音识别系统从实验室演示系统到商品的转化过程中还有许多具体问题需要解决,识别速度、拒识问题以及关键词(句)检测技术等等技术细节要解决。
三、语音识别技术的前景和应用
语音识别技术发展到今天,特别是中小词汇量非特定人语音识别系统识别精度已经大于98%,对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展,这些复杂的语音识别系统也已经完全可以制成专用芯片,大量生产。在西方经济发达国家,大量的语音识别产品已经进入市场和服务领域。一些用户交机、电话机、手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息,并且取得很好的结果。
语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。
参考文献
[1]科大讯飞语音识别技术专栏. 语音识别产业的新发展.企业专栏.通讯世界,2007.2:(总l12期)
[2]任天平,门茂深.语音识别技术应用的进展.科技广场.河南科技,2005.2:19-20
[3]俞铁城.科大讯飞语音识别技术专栏.语音识别的发展现状.企业专栏.通讯世界,2006.2 (总122期)
[4]陈尚勤等.近代语音识别.西安:电子科技大学出版社,1991
篇8
语音识别算法虽然还有很多问题没有解决,但语音识别技术已经开始逐步进入实用阶段。在发达国家语音识别技术已经用于信息服务系统和查询系统,人们可以通过电话网络查询有关的信息,并且取得很好的结果。用户交换机、电话机、手机也包含了语音识别拨号功能。调查统计表明多达80%以上的人对这些服务表示满意。中小词汇量的语音识别系统(
语音芯片的应用
近年来语音芯片应用越来越广泛,主要包括:
1.电话通信中的语音拨号。特别是在中、高档移动电话上,现已普遍具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。
2. 汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的门、窗、空调、照明以及音响等设备,同样也可以由语音来方便地进行控制。
3. 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。
4. 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。
5. 智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于语音芯片价格的降低。
6. 家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控制起来,这样,可以让令人头疼的各种电器的操作变得简单易行。
语音识别专用芯片系统有如下几个特点: 1. 多为中、小词汇量的语音识别系统,即只能够识别10~100词条。只有近一两年来,才有连续数码或连续字母语音识别专用芯片实现。2. 一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别,即预先将所要识别的语句码本训练好而装入芯片,用户使用时不需要再进行学习就可直接应用。但这一类识别功能只适用于规定的语种和方言,而且所识别的语句只限于预先已训练好的语句。3. 由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。4. 多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。5. 除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。
语音识别技术发展
在发达国家各种各样基于语音识别技术的产品已经可以买到,如具有声控拨号电话,语音记事本等等。语音电话服务、数据查询服务也已经部分实现。基于特定任务和环境的听写机也已经进入应用阶段。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用前景。
说话者自适应技术近年在语音识别系统的研究中也备受重视,这是由于与人有关的语音识别系统比与人无关的语音识别系统的识别率要高很多。通过有效的自适应手段可以很快地提高系统的识别能力。实际上说话人自适应技术和稳健语音自适应技术是相通的。由于不同的说话人在声道长度,说话口音方式都很不一样。说话者自适应技术也主要是从以下两方面着手。
静态处理方法。从特征提取或训练阶段就尽可能减少来自说话人的变化因素对模型的贡献。可以进行声道参数的归一化处理或对说话人进行分类处理,如分男女声的识别系统就是其中的一个典型,但实际上仅仅从男女声上对模型分类还是太粗,可以通过有效的聚类方法进行分类。这类方法统称为声学归一化处理方法。
动态处理方法。对预先训练好的与人无关识别系统,通过临时得到的特定人语音数据对系统的模板或特征参数进行自适应修正,从而在原有系统基础上建立一个用于特定任务、特定环境或特定说话人的系统,这类方法统称为自适应方法。自适应方法可分为: 批模式、累进模式、即时模式; 按自适应学习策略又分为无监督学习和有监督学习。从用户使用的方便程度来看是由难到易,而算法实现则是由易到难。采用何种策略取决于应用背景,对识别率的要求等因素。对于听写机等应用来说,最具吸引力的是累进、无监督的自适应方式,也称在线自适应。
语言模型也是目前研究的一个重要方面。目前的语言模型是与任务有关的,典型的统计语言模型是通过大量任务特定的语料训练出来的。通过新闻语料训练出来的模型不能很好地工作于法律方面的文件语音识别。有几种方法用于解决这些问题。一种是使用自适应语言模型。在静态语言模型的基础上,通过一个高速缓冲存储器对语言模型进行动态的修正; 另一种是先训练多领域语言模型,然后通过混合高斯模型将这些模型结合在一起; 还有一种比较好的办法是使用大颗粒的语言模型,如基于类的语言模型,而不是基于词的语言模型,类可以是词性类,词义类,以及由一定的数据驱动的聚类算法产生的各种类。
由于不同词可以属于同一类,这样类比较大,构成的语言模型就比较稳健。其关键的问题是如何决定词的分类,由于词的分类比较复杂,同一词可能属于不同的类,特别是解决如何通过计算机实现自动分类的算法,即使用数据驱动算法也还没有很好地解决。基于统计技术的计算语言学已经越来越受到重视,它解决了单独规则语言模型不能解决的一些问题。当然统计语言模型也不能解决全部问题,因此如何把统计语言模型和基于规则的语言模型结合也是语言模型研究的重点之一。
目前不同快速语音识别算法都在开发中。其中包括对HMM状态输出的概率分布进行矢量量化,缩小搜索空间算法,减少计算机的内存需求方法,以及结合计算机结构特点的编程技术的应用。
链接:稳健语音识别技术
篇9
手写输入
手写输入一直是一个很方便的输入方法,一般都是配合手写板来输入的,很适合那些不会打字的朋友输入文字,其实在Windows Vista操作系统中,也有一个很不错的手写功能,它是利用鼠标在指定的输入框中进行“写”字,通过操作系统的识别系统来输入文字,我们可以点击菜单“开始―所有程序―附件―Tablte PC―Tablte PC输入面板”来打开它,或者按“Win+R”来打开运行窗口,输入“TabTip”也能马上运行。这时候可以看到手写功能的界面了,现在就可以用鼠标来代替手写板进行写字了(如图1)。
手写输入默认使用简体中文,手写识别率还是比较不错的,比如我们要输入中文内容,用鼠标直接在上面写就可以了,如果是输入数字、字母或者英语单词,那可以先点击下面相应的标签,然后再进行输入,输入好后点击右下角的“插入”按钮就可以插入到文档中了(如图2)。
如果你经常使用一些特殊的字符,特别是手写系统不能识别的,那我们可以让手写板来“自学”。点击菜单“工具―个性化手写识别”,弹出设置窗口,点击左面的“简体中文”,接着用输入法输入要识别的字符,完成后点击“下一步”按钮,然后就在手写板上写五遍刚才输入的符号,让手写系统记住你输入的笔画,全部设置好后,下次输入该字符时,手写系统就可以自己识别了(如图3)。
我们还可以给手写输入进行一些设置,让它使用起来更加方便,点击菜单“工具―选项”,在弹出的“选项”窗口中就可以进行设置了。比如要设置一下手写笔的粗细,那只要点击“书写板”标签,然后在“墨迹粗细”中选择自己的适合的规格就可以了(如图4)。
语音输入
Windows Vista系统中还有一个以前在Office 中的语音识别系统,通过它可以进行语音输入文字,而且还可以通过语音来控制电脑呢。
要使用语音识别系统,耳麦或者话筒是不可缺少的,它们的质量不要太差就可以了,以免影响语音的识别效果。点击菜单“开始―所有程序―附件―轻松访问―Windows语音识别”,第一次使用会弹出一个设置向导界面,点击“下一步”按钮来选择一下耳机的类型,这个就看自己是使用的什么类型的麦克风了,一般选择“头戴式麦克风”或者“桌面麦克风”就可以了,接下来设置向导会告诉一些麦克风的摆放位置和注意事项(如图5)。
现在我们可以来调整麦克风的音量了,大声朗读窗口中的斜体文章,声音的范围最好在绿色区域内波动,这也是语音识别系统在采集你的声音,完成后点击“下一步”按钮(如图6)。
为了提高语音识别的准确度,我们在下面的选项中还可以来选择“启用文档复查”和让语音识别系统在开始的时候自动运行。完成设置后,“语音识别”系统会自动调出它的使用教程,整个教程分欢迎、基础、听写、命令、使用Windows、结论这几个部分,按它的提示进行操作就可以了,非常简单,而且其中的操作都可以用语音来进行,如要点击“下一步”按钮,只要直接说“下一步”就可以了(如图7)。
在使用和学习“语音识别”系统的过程中,周围的环境一定要安静,如果有杂声会影响语音识别的效果,而且在说话的时候,语速不要太快,语言自然是说普通话了。
篇10
关键词:语音识别; ARM; 机器人控制; 嵌入式系统
1 语音识别过程分析
目前使用最为广泛的是LPCC和MFCC。MFCC参数将线性频标转化为MEL频标,更利于突出待识别的信息。而LPCC参数是基于线性频标的,没有这一特性。MFCC参数提取过程中需要FFT变换,由此可以获得语音信号的频域上的全部信息,有利于端点检测、语音分段。
对语音信号进行参数提取后的信息存储在模板库中,模式匹配过程中,实际上就是将测试语音的参数模板和模板库中的模板进行比较的过程。在小词汇量的孤立词语音识别系统中,通常采用DTW 算法。算法原理为:
设R为参考模式,T为待测模式。R和T分别表示为: