语音识别技术范文
时间:2023-04-04 17:21:53
导语:如何才能写好一篇语音识别技术,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。
篇1
关键词:语音识别 应用领域 热点 难点
中图分类号:TN912 文献标识码:A 文章编号:1007-3973 (2010) 03-062-02
1应用领域
如今,一些语音识别的应用已经应用到实际生活中,如IBM的Viavoice、Microsoft的Speech SDK、Dragon公司的Dragon Dictate系统等。语音识别的应用领域非常广泛,几乎涉及到日常生活的方方面面。如语音拨号系统、、家庭服务、订票系统、声控智能玩具、医疗服务、银行服务、听写机、计算机控制、工业控制、语音通信系统等。预计在不远的将来,语音识别技术将在工业、家电、通信、、医疗、家庭服务等各个领域深刻改变人类现有的日常生活方式。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。
2发展历史
语音识别的研究工作开始于50年代,Bell实验室实现了第一个可识别十个英文数字的语音识别系统―Audry系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。60年代,提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,极大地促进了语音识别的发展。70年代,动态时间归正技术(DTW)解决了语音特征不等长匹配问题,对特定人孤立词语音识别十分有效,在语音识别领域取得了突破。在此期间还提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。
80年代语音识别研究进一步深入,HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍,并以此确定了统计方法和模型在语音识别和语言处理中的主流地位。使得借助人工智能中的启发式搜索和语音模型自身的特点,高效、快捷的算法使得建立实时的连续语音识别系统成为可能。
90年代,人们开始进一步研究语音识别与自然语言处理的结合,逐步发展到基于自然口语识别和理解的人机对话系统。人工神经元网络(ANN)也开始应用于语音识别,它和HMM模型建立的语音识别系统性能相当,在很多系统中还被结合在一起使用以提高识别率及系统的鲁棒性。小波分析也开始用于特征提取,但目前性能不理想,其研究还在进一步深入中。
现在语音识别系统已经开始从实验室走向实用,出现了比较成熟的已推向市场的产品。许多发达国家如美国、日本、韩国以及IBM、Apple、Microsoft、AT&T等著名公司都为语音识别系统的实用化开发研究投以巨资。
3研究的热点与难点
目前语音识别领域的研究热点包括:稳健语音识别(识别的鲁棒性)、语音输入设备研究 、声学HMM模型的细化、说话人自适应技术、大词汇量关键词识别、高效的识别(搜索)算法研究 、可信度评测算法研究、ANN的应用、语言模型及深层次的自然语言理解。
目前研究的难点主要表现在:(1)语音识别系统的适应性差。主要体现在对环境依赖性强。(2)高噪声环境下语音识别进展困难,因为此时人的发音变化很大,像声音变高,语速变慢,音调及共振峰变化等等,必须寻找新的信号分析处理方法。(3)如何把语言学、生理学、心理学方面知识量化、建模并有效用于语音识别,目前也是一个难点。(4)由于我们对人类的听觉理解、知识积累和学习机制以及大脑神经系统的控制机理等方面的认识还很不清楚,这必将阻碍语音识别的进一步发展。
4语音识别系统
一个典型的语音识别系统如图所示:
输入的语言信号首先要进行反混叠滤波、采样、A/D转换等过程进行数字化,之后要进行预处理,包括预加重、加窗和分帧、端点检测等。我们称之为对语音信号进行预处理。
语音信号的特征参数主要有:短时能量En,反映语音振幅或能量随着时间缓慢变化的规律;短时平均过零率Zn,对于离散信号来讲,简单的说就是样本改变符号的次数,可以粗略分辨清音和浊音;短时自相关函数;经过FFT或LPC运算得到的功率谱,再经过对数运算和傅里叶反变换以后得到的倒谱参数;根据人耳听觉特性变换的美尔(MEL);线性预测系数等。通常识别参数可选择上面的某一种或几种的组合。
语音识别是语音识别系统最核心的部分。包括语音的声学模型(训练学习)与模式匹配(识别算法)以及相应的语言模型与语言处理2大部分。声学模型用于参数匹配,通常在模型训练阶段按照一定的准则,由用语音特征参数表征的大量已知模式中通过学习算法来获取代表该模式本质特征的模型参数而产生。在识别(模式匹配)时将输入的语音特征同声学模型(模式)根据一定准则进行匹配与比较,使未知模式与模型库中的某一个模型获得最佳匹配以得到最佳的识别结果。语言模型一般指在匹配搜索时用于字词和路径约束的语言规则,它包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理则可以进行语法、语义分析。
声学模型是语音识别系统中最关键的一部分。目前最常用也最有效的几种声学识别模型包括动态时间归整模型(DTW)、隐马尔可夫模型(HMM)和人工神经网络模型(ANN)等。
DTW是较早的一种模式匹配和模型训练技术,它把整个单词作为识别单元,在训练阶段将词汇表中每个词的特征矢量序列作为模板存入模板库,在识别阶段将待识别语音的特征矢量序列依次与库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。DTW应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在小词汇量、孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已逐渐被HMM和ANN模型替代。
HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)具有有限状态的Markor链,另一个是与Markor链的每一状态相关联的观察矢量的随机过程(可观测的)。HMM很好的模拟了人得语言过程,目前应用十分广泛。HMM模型的模型参数包括HMM拓扑结构(状态数目N、状态之间的转移方向等)、每个状态可以观察到的符号数M(符号集合O)、状态转移概率A及描述观察符号统计特性的一组随机函数,包括观察符号的概率分布B和初始状态概率分布 ,因此一个HMM模型可以由{N,M,A,B, }来确定,对词汇表中的每一个词都要建立相应的HMM模型。
模型参数得到后可以用Viterbi算法来确定与观察序列对应的最佳的状态序列。建好模型后,在识别阶段就是要计算每个模型产生观察符号序列的输出概率,输出概率最大的模型所表示的词就是我们的识别结果。这个过程计算量很大,有人提出了前向-后向算法,大大减少了计算量,已经被广泛采用,关于它们的各种改进方法也被大量提出。
ANN在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统,是由结点互连组成的计算网络,模拟了人类大脑神经元活动的基本原理,具有自学习能力、记忆、联想、推理、概括能力和快速并行实现的特点,同时还具备自组织、自适应的功能。这些能力是HMM模型不具备的,可用于处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,允许样品有较大的缺损、畸变,因此对于噪声环境下非特定人的语音识别问题来说是一种很好的解决方案。目前大部分应用神经网络的语音识别系统都采用了BP网并取得了较好的识别效果。
将ANN与HMM结合分别利用各自优点进行识别将是今后的一条研究途径。二者结合的混合语音识别方法的研究开始于上世纪90年代,目前已有一些方法将ANN辅助HMM进行计算和学习概率参数。
语言模型主要分为规则模型和统计模型两种。统计语言模型是用概率统计的方法来揭示语言单位内在的统计规律,其中N-Gram简单有效,被广泛使用。N-Gram模型基于这样一种假设:第n个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料库中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
5总结
尽管语音识别技术已经取得了长足的进步,而语音识别系统也层出不穷,不断的改变人类现有的生活方式,但其比较成功的应用也只是在某些特定的领域,谈不上大规模广泛的应用。只有建立从声学、语音学到语言学的知识为基础、以信息论、模式识别数理统计和人工智能为主要实现手段的语音处理机制,把整个语音识别过程从系统工程的高度进行分析构建,才有可能获得能与人类相比的高性能的、完整的计算机语音识别系统。
参考文献:
[1]易克初,田斌.付强.语音信号处理[M].国防工业出版社,2000.
[2]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.
[3]赵力.语音信号处理[M].机械工业出版社,2003.
篇2
语音识别算法虽然还有很多问题没有解决,但语音识别技术已经开始逐步进入实用阶段。在发达国家语音识别技术已经用于信息服务系统和查询系统,人们可以通过电话网络查询有关的信息,并且取得很好的结果。用户交换机、电话机、手机也包含了语音识别拨号功能。调查统计表明多达80%以上的人对这些服务表示满意。中小词汇量的语音识别系统(
语音芯片的应用
近年来语音芯片应用越来越广泛,主要包括:
1.电话通信中的语音拨号。特别是在中、高档移动电话上,现已普遍具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。
2. 汽车的语音控制。由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的门、窗、空调、照明以及音响等设备,同样也可以由语音来方便地进行控制。
3. 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。
4. 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。
5. 智能玩具。通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在于语音芯片价格的降低。
6. 家电遥控。用语音可以控制电视机、VCD、空调、电扇、窗帘的操作,而且一个遥控器就可以把家中的电器皆用语音控制起来,这样,可以让令人头疼的各种电器的操作变得简单易行。
语音识别专用芯片系统有如下几个特点: 1. 多为中、小词汇量的语音识别系统,即只能够识别10~100词条。只有近一两年来,才有连续数码或连续字母语音识别专用芯片实现。2. 一般仅限于特定人语音识别的实现,即需要让使用者对所识别的词条先进行学习或训练,这一类识别功能对语种、方言和词条没有限制。有的芯片也能够实现非特定人语音识别,即预先将所要识别的语句码本训练好而装入芯片,用户使用时不需要再进行学习就可直接应用。但这一类识别功能只适用于规定的语种和方言,而且所识别的语句只限于预先已训练好的语句。3. 由此芯片组成一个完整的语音识别系统。因此,除了语音识别功能以外,为了有一个好的人机界面和识别正确与否的验证,该系统还必须具备语音提示(语音合成)及语音回放(语音编解码记录)功能。4. 多为实时系统,即当用户说完待识别的词条后,系统立即完成识别功能并有所回应,这就对电路的运算速度有较高的要求。5. 除了要求有尽可能好的识别性能外,还要求体积尽可能小、可靠性高、耗电省、价钱低等特点。
语音识别技术发展
在发达国家各种各样基于语音识别技术的产品已经可以买到,如具有声控拨号电话,语音记事本等等。语音电话服务、数据查询服务也已经部分实现。基于特定任务和环境的听写机也已经进入应用阶段。语音识别技术是非常重要的人机交互技术,有着非常广泛的应用前景。
说话者自适应技术近年在语音识别系统的研究中也备受重视,这是由于与人有关的语音识别系统比与人无关的语音识别系统的识别率要高很多。通过有效的自适应手段可以很快地提高系统的识别能力。实际上说话人自适应技术和稳健语音自适应技术是相通的。由于不同的说话人在声道长度,说话口音方式都很不一样。说话者自适应技术也主要是从以下两方面着手。
静态处理方法。从特征提取或训练阶段就尽可能减少来自说话人的变化因素对模型的贡献。可以进行声道参数的归一化处理或对说话人进行分类处理,如分男女声的识别系统就是其中的一个典型,但实际上仅仅从男女声上对模型分类还是太粗,可以通过有效的聚类方法进行分类。这类方法统称为声学归一化处理方法。
动态处理方法。对预先训练好的与人无关识别系统,通过临时得到的特定人语音数据对系统的模板或特征参数进行自适应修正,从而在原有系统基础上建立一个用于特定任务、特定环境或特定说话人的系统,这类方法统称为自适应方法。自适应方法可分为: 批模式、累进模式、即时模式; 按自适应学习策略又分为无监督学习和有监督学习。从用户使用的方便程度来看是由难到易,而算法实现则是由易到难。采用何种策略取决于应用背景,对识别率的要求等因素。对于听写机等应用来说,最具吸引力的是累进、无监督的自适应方式,也称在线自适应。
语言模型也是目前研究的一个重要方面。目前的语言模型是与任务有关的,典型的统计语言模型是通过大量任务特定的语料训练出来的。通过新闻语料训练出来的模型不能很好地工作于法律方面的文件语音识别。有几种方法用于解决这些问题。一种是使用自适应语言模型。在静态语言模型的基础上,通过一个高速缓冲存储器对语言模型进行动态的修正; 另一种是先训练多领域语言模型,然后通过混合高斯模型将这些模型结合在一起; 还有一种比较好的办法是使用大颗粒的语言模型,如基于类的语言模型,而不是基于词的语言模型,类可以是词性类,词义类,以及由一定的数据驱动的聚类算法产生的各种类。
由于不同词可以属于同一类,这样类比较大,构成的语言模型就比较稳健。其关键的问题是如何决定词的分类,由于词的分类比较复杂,同一词可能属于不同的类,特别是解决如何通过计算机实现自动分类的算法,即使用数据驱动算法也还没有很好地解决。基于统计技术的计算语言学已经越来越受到重视,它解决了单独规则语言模型不能解决的一些问题。当然统计语言模型也不能解决全部问题,因此如何把统计语言模型和基于规则的语言模型结合也是语言模型研究的重点之一。
目前不同快速语音识别算法都在开发中。其中包括对HMM状态输出的概率分布进行矢量量化,缩小搜索空间算法,减少计算机的内存需求方法,以及结合计算机结构特点的编程技术的应用。
链接:稳健语音识别技术
篇3
关键词 机器人 语音识别 声学模型 语音特征参数
中图分类号:TP242 文献标识码:A
1语音识别技术的研究意义
人们使用的声音语言是一种人在特定高度思维和意识活动下的产品。语言是人类最直接以及最理想的交流方式,也是人机通信是最方便的方式。在机器人发展的高级发展阶段中,机器人的智能语音识别与人类的活动是密切相关的,有声语言的人机交互信息成为重要的手段。例如,语音识别获取外界信息很自然,没有特殊的训练方法,随着机器人技术的发展和广泛应用,有越来越多的机会来接触人类和机器人,所以人们希望通过语音识别和机器人去处理,不管谁能能准确安全,方便地操纵机器人。机器人和人类之间的信息交互,表现在两个方面,一是对更高层次的机器人操作,方便软件的设计开发,这种多为教学机器人,另一种是在实际操作的要求下完成信息交互任务的机器人。智能机器人作为机器人技术发展的高级阶段,其发展趋势是:不仅要求机器人具有高度的自治能力,还要使机器人和人类之间的协调也具有一定的智能性。这就要求机器人具有不同的高性能主动做事能力,而不是被动地接受任务,为了实现这一目标,自然语言作为人机信息交换将发挥越来越重要的作用。目前,智能机器人已成为机器人研究领域的一个热点。工业机器人是智能机器人的一个重要研究领域。当今,工业机器人的发展方兴未艾,巨大的市场潜力,使真正的工业机器人的已经在市场上崭露头角,以满足人们日益增长的需求,我们不能没有一个高性能的语音识别系统。由于工业机器人是面向生产实际的需要,最好的工作方式是让机器人能顾听懂最常见的人类语言,完成指定的工作,并能与人交流。机器人语音识别是机器人研究领域中的语音识别应用,最终的目标是让机器人了解人们的口头语言,然后按照人们的命令来行动或反应,从而形成一个良好的人机对话系统。为了能够进一步推动智能机器人的开发应用,因此,在语音识别机器人的研究领域中,机器人语音识别系统是工业机器人的实际推广应用,具有重要的意义。
语音识别技术在智能机器人中的应用已经有很多年的历史,作为智能机器人的一个分支,工业机器人得到了迅速发展,工业机器人通过语音识别从工业噪声中提取有效的语音命令。为了实现机器人在一些特殊工业环境中工作的目的,机器人要能够识别命令意图。语音识别技术,可以实现人机对话,从而让机器能模仿人类完成所有工作的分配,使其在各行各业中能够得以应用。目前所面临的实际问题是:噪声和干扰环境下对大型工业机器人的语音识别有严重的影响。在机器人识别领域,工业环境中的实时性是一个非常重要的任务。机器人在工业环境下应用的听觉识别是使智能机器人发展速率低的瓶颈。
2语音识别系统的发展
2.1语音识别系统的发展方向
语音识别系统是基于一套应用软件系统的硬件平台和操作系统的一些。语音识别一般分为两个步骤。第一步是学习或培训。这一阶段的任务是建立基本单元的声学模型来进行识别和模型的语音语法分析等。第二步是识别或测试。根据识别系统的类型可以满足一个识别方法的要求,使用语音分析的方法来分析语音特征参数,并建立了比较和测量系统模型,根据一定的标准,鉴定结果。
语音识别系统的应用可分为两个发展方向,其中一个是大词汇连续语音识别系统,主要应用于计算机的听写机,以及结合电话网或互联网的语音信息服务系统,这些系统是在计算机平台上的一个重要发展方向。其次是应用的小型化,便携式音频产品,如无线移动电话的拨号,语音控制车载设备,智能玩具,家用电器和其他方面的应用的远程控制,这些应用系统大多采用特殊的硬件系统来实现,特别是语音信号处理芯片和语音识别芯片,最近几年快速发展,为其广泛应用创造了极为有利的条件。
2.2语音识别系统的模型与模式
语音识别系统的核心是声学模型和模式分类。首先通过学习算法,训练语音声学模型的特点是通过学习过程来生成声学模型,这是识别潜在的模型的前提,是最关键的语音识别系统的一部分。声学模型的目的是提供一种有效的方法来计算特征向量的声音序列和每个发音模板之间的距离。人的发音在每一刻发音之前和之后都会受到影响。
为了模仿自然连续的协同发音和识别不同的发音,通常需要使用复杂的声学模型。声学模型和语言的发音特点的设计是密切相关的。声学模型单元大小与单词发音,音节模式和音位语音训练数据大小有关,故要求其系统识别具有很大的灵活性。大词汇量语音识别系统,通常采用较小的单元和少量的计算,该模型只有较小的存储容量,减少训练数据的数量,但相应的声音定位和分割问题就显得更加困难,规则识别模型变得越来越复杂。通常大型模型中识别单元包括协同发音,这有利于提高系统的识别率,但训练数据也相对增加。必须根据不同语言的特点来识别词汇,词汇量大小决定单位大小。
参考文献
篇4
关键词:语音识别技术;计算机辅助语言;应用;综述
中图分类号:TP391.6 文献标识码:A 文章编号:1674-7712 (2014) 12-0000-02
随着全球化的发展,越来越多的人想掌握一门外语,而传统的语言教学已不能满足人们的这一需求。计算机辅助语言学习(Computer Assisted Language Learning,缩写CALL)伴随着这一时代背景应运而生。CALL是在一定的语言学和心理学的理论基础之上,利用计算机技术和信息技术辅助、推进语言学习。目前,许多CALL学习软件大多是把各类资料集成在一起,基本上不能对学习者给出有效的反馈信息。语音识别技术的应用使得CALL系统可以具有发音评测的功能,能够帮助学习者及时发现和纠正错误发音,避免重复错误发音形成习惯,从而极大提高了学习者的学习效率。
一、计算机辅助语言学习(CALL)及其特点
(一)计算机辅助语言学习(CALL)简介
语言作为我们的日常交流工具,在经济全球化发展的今天,它的社会功能也越来越凸显。随着国际交流的日益频繁,越来越多的人想掌握一门第二语言,语言学习也成为了教育领域的一大热点。
语言学习的直接目的就是提高学生的交际能力,而这一能力最直接的体现就是口语表达。传统的师生教学是语言学习的主要方式,在这种教学方式下口语的教学主要是采用教师讲解发音方式和发音演示,学生跟读训练的方法。可以说这样的学习方式在口语学习中是至关重要且卓有成效的,但却是不够的。随着计算机技术和信息技术的迅猛发展,CALL已成为当今外语教学发展的一个新趋势。作为一种新的学习方式,它主要是在一定的语言学和心理学的理论基础之上,利用计算机和信息技术辅助和推进外语的教学。
CALL是外语学习的新趋势,它在中国的应用已经有近20年的历史,但直到多媒体技术的出现,它才真正进入外语教学的课堂。可以预见CALL作为一种教育技术在教学中的运用是外语学习发展的必然趋势。
(二)计算机辅助语言学习(CALL)的应用及其特点
CALL始于二十世纪五十年代的美国,在语言教学中的应用始于二十世纪六十年代。其发展大致经历了行为主义阶段、交际法阶段、综合法阶段[1]。
1.行为主义阶段(Behavioristic CALL)
60年代,当时的应用主要为CAI(Computer-Aided Instruction)课件(courseware)的开发与利用,课件以行为主义(behaviorism)为理论基础。按照该理论,斯金纳设计了便于及时强化的程序教学机器和便于进行程序教学的程序[2]。程序教学主张把教学目标和内容分解成很小的单元,按照严格的逻辑顺序编制程序,将教学信息转换成一系列问题与答案,电脑呈现一个问题(S),学生提供一个答案(R),答对给予奖励,答错给予惩罚,奖励或惩罚紧随反应之后,这样通过一步步地强化使学生掌握教学内容,最终达到预期的目标。
这时CALL软件的特点是:计算机仅作为提供素材和指令的工具,将各知识点以固定方式组织起来;允许学生根据自己的步调自定学习进度和速度,但学习过程完全由计算机程序控制;计算机向学生提供大量的练习,练习的答案往往是唯一的,学生的回答没有自主性和灵活性。
2.交际法阶段(Communicative CALL)
20世纪80年代,计算机的功能大大加强,微机(microcomputer,或称个人电脑 personal computer)开始应用于教育。CAI课件的设计原则转向以认知心理学为主导,强调学习者的心理特征和认知规律,遵循认知的信息加工理论,把学习看作是学习者根据自己的态度、兴趣、爱好和需要,利用原有的认知结构,对当前外部刺激所提供的信息做出主动、有选择的信息加工。这一时期CALL软件的代表是著名学者安德逊(Aderson)根据认知学习理论,研制出的”高中几何智能辅助教学系统”,它实现了对学生求解几何问题思维过程的自动跟踪和控制。
这一时期CALL软件的特点是:计算机能够根据学习者的需求和特点进行个别教学,但由于心理学对人类学习规律认识不全面和人工智能技术的发展不成熟,CALL软件离个别化教学还有一段距离。
3.综合法阶段(Integrative CALL)
80年代后期并持续至今,多媒体技术与网络技术取得突破性发展,尤其是因特网的出现及其迅猛发展不仅改变了传统的生产方式、生活方式和思维方式,也改变了人们的教育观念和学习方式,引起了一场教育革命。
同时期崛起的建构主义(constructivism)学习理论成为这场教育革命中革新传统教学的理论基础。建构主义学习理论与认知语言学、社会语言学、第二语言习得的理论等构成综合法的理论基础。其中社会语言学的影响尤为明显,它强调在语言学习中要为学生提供真实的社会交际,使他们能够掌握社会所需要的语言技能(Warshauer&Meskill,1998)。而实现这一目的的最好方法是使学生参与有意义的任务型学习(task-based learning)。通过专题学习(thematic learning)、项目型学习(project-based learning)、协作式学习(collaborative learning)、跨文化学习(cross-cultural learning)等多种方法,在兼学知识、文化的同时学习语言。
这一时期CALL软件的特点是:(1)计算机作为认知工具、情感交流及协作学习工具,起到导师、伙伴的作用;(2)提倡为外语学习创造真实的情境,开展有意义的、有创造性的语言交际活动;(3)提倡将语言的学习与计算机技能的学习及使用结合起来,培养学生具有21世纪网络时代所需要的外语交际能力(Warshauer,1996;Warshauer,Shetzer,&Meloni,2000)。
由此可以看出,CALL经历的三个阶段伴随着教育学、心理学、计算机技术和信息技术的发展而发展,CALL系统的设计也向着交互性、个性化、针对性和创造性的方向发展。
二、语音识别技术在CALL系统的应用
(一)语音识别技术简介
语音识别技术,也被称为自动语音识别技术(Automatic Speech Recognition,ASR),其目标是让机器也能够像人一样具有听觉功能,直接接受人的语言,能理解人的意图,并做出相应的反应。
最早的基于电子计算机的语音识别系统是50年代由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字[3];60和70年代,线性预测编码(Linear Predictive Coding LPC)及动态时间规整(Dynamic Time Warp DTW)技术的提出有效的解决了语音信号的特征提取和不等长的匹配问题[4],实现了特定人孤立词语音识别系统;80年代和90年代,隐马尔科夫(HMM)模型和人工神经元网络(ANN)的成功应用,使得语音识别系统的性能比以往更优异,实现了大词汇量、连续语音和非特定人的语音识别。随着多媒体时代的到来,语音识别技术逐渐从实验室走向应用,其代表有:Via Voice、Whisper、Voice Tone、Voice Action、Siri等。
21世纪,互联网和移动通信技术的发展给语音识别带来了新的契机,语音识别应用已经延伸到各个方面,如通讯领域、计算机语音检索系统、自动化控制等。语音识别技术已经成为一个具有竞争性的新兴高技术产业,是一门既有理论价值又有实际意义的重要学科。
(二)语音识别技术的基本原理
从技术上看,语音识别属于模式识别的范畴,其系统结构与模式识别具有相似之处。不同的语音识别系统在具体实现细节上有所不同,但所采用的原理基本是相似的。首先要对输入的语音信号进行预处理,并抽取所需的语音特征,在此基础上建立语音识别所需的语音模板。在识别过程中,将输入的语音信号的特征与己存在的语音模板进行比较,并根据一定的搜索,找出最优的与输入的语音相匹配的模板。最后,给出计算机的识别结果。其识别过程如图1:
图1
(三)语音识别技术在CALL中的应用
随着计算机技术和信息技术的发展,CALL已成为现代教育技术在教育领域一个重要应用。但最初的CALL主要应用在文字阅读和语言理解能力的训练,现存的CALL系统也大多侧重单词、语法的学习[5],很少关注语言发音训练。语音技术的不断发展和成熟为学习者发音练习提供了可能,它在CALL中最直接的应用就是帮助用户更好地练习语言发音。
CALL中引入语音识别技术,改变了传统的语言学习方式,使得学习者能够对自己的发音做出客观的评价。基于语音识别技术的CALL已成为计算机辅助语言学习系统研究的热点,不少公司和科研机构也投入了大量的人力、物力、财力在研究开发相关的发音学习系统,并且出现了一些较为成熟的产品。如“Pronunciation”、“Tell Me More”等,这些系统采用提供语音信号波形图的方式让学习者进行模仿,这种方式只是给学习者技术上的冲击感,对改善他们的发音并没有实际的帮助。国内许多英语学习软件都是把各类英语资料(文本、图片、音频、视频)累积在一起,基本上不能对学习者给出有效的反馈信息,即便加入了语音识别功能,其功能类似于复读机,即只能给学习者提供发音演示、录音跟读的功能,如“说宝堂”、“e百分”等产品。由于很少有软件会对学习者的发音做出一个整体的评分,也不能准确定位和检测学习者的发音错误,更没有对学习者的错误发音做出一个反馈和矫正,加之学习者因为自身水平限制,很难完全发现错误、纠正不正确的发音。故此,软件发音错误矫正的功能显得尤为重要。基于语音识别技术的CALL系统对于语言学习者来说是一个有效的辅助语言学习的平台,为了有效的促进语言学习,它应该具备如图2所示的功能。
图2
通过分析我们可以发现,目前语音识别技术在CALL中的应用取得了一些进展,但是仍然有一些问题等待解决和克服。目前的一些困难和问题主要集中在产品设计理念和技术实现上两个方面。
在产品设计理念上我们需要考虑以下几个问题:(1)教育软件的设计和开发应该应考虑学习者的需求,以学习者为中心;(2)教育软件的设计应该考虑教育学和教育心理学的相关理论,避免书本知识的搬家;(3)考虑学习者认知的个体差异性,为学生提供多元化学习的认知工具。
在技术实现上我们需要考虑以下几个问题:(1)选择合适的识别基元以提高识别率;(2)对语音信号的端点更加精确的检测,即判断语音信号的开始和结尾以提高识别的准确率;(3)对给定的发音进行错误检测和纠正,寻找合理的评分机制,并对学习者的发音进行及时、客观的反馈;(4)提高预处理阶段语音信号的信噪比;(5)选择高效的识别算法以减少识别时的搜索范围,提高识别速度。
四、结束语
本文分别介绍了语音识别技术和CALL,然后对语音识别技术在CALL中的应用进行了综述,并探讨了设计基于语音识别技术的CALL系统时需要考虑的问题。语音识别技术作为一种逐渐成熟的技术,它是基于语音识别技术的CALL系统的基础与核心。基于语音识别技术的CALL是一种新的、有效的学习方式,它能够有效的促进学习者口语水平的提高,也是CALL系统的一个重要发展方向。
参考文献:
[1]杨芳,曹扬波.计算机辅助语言学习的发展与前景[J].中国科技信息,2011(02).
[2]何克抗,李文光.教育技术学[M].北京:北京师范大学出版社,2009.
[3]詹新明,黄南山,杨灿.语音识别技术研究进展[J].现代计算机,2008(09).
[4]马莉,党幼云.特定人孤立词语音识别系统的仿真与分析[J].西安工程科技学院学报,2007(06).
篇5
关键字:形象识别;VI设计;餐饮服务;整合艺术
中图分类号: S611 文献标识码: A
企业形象识别(CIS),是企业通过策划和形象识别,让被策划的某品牌从大众品牌中识别的技巧与理论统称。它包括理念、行为与视觉识别三个部分,并且这三个部分相互作用、联系、配合。根据服务的易逝性、无形性、异质性以及和消费、生产的同时性等特征影响,产品实物和服务生产表现出完全不同的特征,同时,统一、严谨的服务理论很大程度上也制约了它的发展。自上个世纪八十年代,顾客与服务提供者的服务接触开始成为服务和管理的关键环节以来,餐饮服务艺术与形象识别理论越来越被重视。
一、VI在餐饮空间的整合传播
(一)VI在餐饮空间的特点
VI是在企业经营理念下,通过平面设计将企业的市场定位和内在气质形象化、视觉化的结果;同时它也是独立法人和周边经营、社会环境沟通、联系、区别最常用、直接的平台。在大力发展营销的当下,如果企业没有VI,不仅会影响视觉形象的清晰度,还会影响企业规模和文化。优秀的VI是和普通企业形成差异的主要因素,并且保障企业活动中的不可替代性和独立性,帮助企业明确定位,所以说它属于无形资产的关键元素。在传达企业文化与经营理念的过程中,用生动的视觉效果进行企业文化宣传,用自身的视觉系统吸引公众,让消费者对企业产品与服务形成忠诚度。
另外,它还能帮助企业提升认同感。基础部分能广泛应用到交通设备、员工服装、橱窗设计、建筑系统、外观指示、户外用品、办公招牌、用品包装、产品广告、陈列宣传、公务环境、企业礼品以及印刷等,具体到餐厅logo、环境、外观、员工服饰、广告用品等一系列和餐厅相关的设计因素,形象的VI设计,能让餐厅空间具有空间感,并且和其他店面区别开来。
(二)VI在空间的文化与地域整合
从室内设计的特征来看,它是从空间色彩、形态、材料、陈设、肌理、装饰和整体性空间意境表现的结果。地域形式主要由风俗人情、文化礼仪、生活形式、自然风情、历史文化、自然环境以及本地用材等因素构成。利用VI进行餐厅形象设计、整体规划、陈设布置,能帮助其拥有良好的品牌形象。主要表现在以下几个方面:
1、空间形态
在空间形态上,通过改造与重现空间形式,给消费者特别的感受。例如:蒙古大营就可以利用本地的文化风俗,进行现代化设计,在彩绘、穹顶以及柱廊雕刻中,展现现代化的蒙古包特性。
2、色彩设计
在平面设计中,审美设计是在各种地理、政治、民族、习俗、宗教的发展中生成的,所以引发的色彩寓意和喜好也有很大差异。
3、设计陈设
在设计中,陈设又分成装饰性与功能性陈设两种。它的范围包括墙壁悬挂的各种图片、艺术、壁挂等,具体如:供奉的佛像、悬挂的样品、各式器具等都能烘托餐饮空间和整体性主题。
4、视听
在餐饮平面设计中,提升顾客体验元素的形式主要表现在:体验情境、触动、回味和视听上。可以围绕当地的某个元素以及餐厅发展过程,将某个主题作为中心,进行材质、形态、声响、色彩、触感、装饰等全方位的设计,从而达到深化用餐感受的效果。
二、形象识别在餐饮服务艺术中的应用
(一)VI在餐饮空间的应用
Logo不仅是某个企业文字与图像的组合,同时也是以企业构造、类别、经营方式为理念,在接触外部环境与对象的过程中,为其制定新型的视觉符号。它作为标志性符号,经常作为装饰元素进行应用,印在菜牌、餐具、餐巾纸上。从整体来看,餐饮空间的内部装潢、名字颜色、字体、桌椅风格以及大厅摆设等;从细节来看,餐厅服务员的菜单、服装、桌牌、餐具、订餐卡、员工名片等都在VI系统,过程就是导入过程。
在设计中,墙面、地面、隔断、前台、雅间、洗手间、大厅等,不管是什么形态、颜色都必须采用统一的设计方式进行,帮助企业塑造形象和品牌凝聚力。在VI设计中,不仅要体现在空间领域,还要整合环境色彩、材质、灯光配置、绿色植被、空间设置等,并且让空间和VI有着紧密的搭配。
(二)企业形象识别系统优势
在餐饮服务设计中,企业形象很注重个别系统的统一性与一体化,形象识别系统作为服务活动、经营活动、销售等一系列行为构成的系统,它具有一体化特征,从企业思想、行为识别到视觉形象,形象识别都能展现行动、思想、视觉上的共同特征。同时这也是企业统一性、已提醒管理与经营必不可少的部分。例如:传统餐饮管理主要从业务特征上进行考察,然后再设定各种规章、准则,这样就会让其缺乏精神与物质上的联系。企业形象识别不只是管理手段,更是新型的文化体系。所以讲企业形象引用到现代餐饮管理中,能拉近经营思想和企业管理之间的联系,让员工行为更具有凝聚力和统摄力。
企业形象识别作为整合性系统,它能充分发挥各个系统功能。当其作为整体系统发挥作用时,它具有单独、孤立作用下没有的特性,也就是整体大于部分之和。例如:在广告中,将企业形象应用在餐饮广告中,必然会涉及形象识别,所以,在广告出现时,餐饮企业的服务质量、促销配合、识别宣传就能提高,通过为其铺路、搭台、烘托氛围,逐步提高广告效应,反之广告活动也为餐饮公关、促销、理念进行了宣传。
(三)企业形象识别存在问题
从目前的餐饮业应用形象识别理论进程来看:企业形象识别还处于理论较松散、偏实践的状态。如:企业形象识别在美国是一种思想,在日本则是提高内部凝聚力的重要方法。从当前的企业形象识别体系来看,企业形象依然缺乏有效的信息反馈方式,这是企业形象识别需要考虑的问题,也是实践探究必须正视的元素。因此,在现代餐饮形象识别中,必须注重自身不足,并且做好修正、弥补工作。
另外,企业形象识别也需要一定的实施条件。它的高起点策略,主要体现在市场发展和内部需求上,很多中高档企业由于服务质量、企业管理起步相对较早,在经验、资金、员工素质达标的情况,拥有实施形象识别的条件;而国内目前的餐饮企业,很多都不具有完备的条件,服务质量、组织结构都有待提高。
(四)企业形象识别应用必要性和方法
从餐饮业发展来看,为了适应市场需求,将企业形象应用到餐饮行业是时代的需要。随着人口增加,第三产业比重上升,餐饮业将呈现出良好的发展空间和激烈的竞争形势。在餐饮行业国际化的大趋势下,国内餐饮业面临着国外市场,所以必须快速和国际市场接轨。但是,我们也应该看到:国内餐饮业和国际还存在很大差距,不仅表现在监督、服务和投资上,还必须及时做好导入和设计工作,提高服务观念,快速解决各种问题。因此,在实际工作中,餐饮企业必须正视餐饮识别系统,把握导入时机,在导入时,根据VI设计要求,强化工作进程。
结束语:
餐饮服务艺术作为一项系统、复杂的工作,将形象识别理论应用在餐饮业中,对提高服务质量与工作效益具有很大作用。因此,在实际工作中,必须把握VI设计特点以及实际情况,从各方面完善餐饮服务质量,促进餐饮企业发展。
参考文献:
[1] 徐冉,陆晓云.基于形象识别理论的餐饮服务艺术浅析[J].黑龙江科技信息,2014,(19):287-287.
[2] 鲍尧.基于服务接触视角的服务品牌权益影响因素研究[D].东南大学,2010.
[3] 严海岸.CIS中VI设计的数字化技术与应用[D].山东大学,2011.
篇6
关键词:PCA变换;k近邻法;数字识别
中图分类号:TP391
1PCA的基本思想
PCA是采取一种数学降维的方法,找出几个综合变量来代替原来众多的变量,使这些综合变量能尽可能地代表原来变量的信息量,而且彼此之间互不相关。这种将把多个变量化为少数几个互相无关的综合变量的统计分析方法就叫做主成分分析或主分量分析。
PCA所要做的就是设法将原来众多具有一定相关性的变量,重新组合为一组新的相互无关的综合变量来代替原来变量。通常,数学上的处理方法就是将原来的变量做线性组合,作为新的综合变量,但是这种组合如果不加以限制,则可以有很多,应该如何选择呢?如果将选取的第一个线性组合即第一个综合变量记为F1,自然希望它尽可能多地反映原来变量的信息,这里“信息”用方差来测量,即希望Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中所选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来p个变量的信息,再考虑选取F2即第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,通过数学表达就是要求Cov(F1,F2)=0,称F2为第二主成分,依此构造出第三、四……第p个主成分。
2k近邻法
2.1模式识别方法
模式识别是指对事物、现象的相关信息进行分析、处理从而进行有效的辨认、描述的过程,首先,选择一定的样本,结合样本间的相似度设计对识别样本进行分类决策的分类器。由预处理、模式特征或基元选择、识别组成,系统的简单框图如下图所示:
模式识别简单框图
2.2K-近邻法决策
一般意义上讲,在知道系统分布密度的条件下,Bayes理论所设计的分类器性能最越优,然而,在实际应用过程中,繁琐的系统分部密度求取经常给人们带来很多的不方便,且很多时候,参数或概率密度函数未知,所以,Bayes方法没能广泛应用,非参数模式识别分类方法一般能更好的解决模式识别分类问题,实际应用广泛。
k近邻法是非数模式识别决策分类方法中最重要的方法之一,它无须估计概率、概密度函数而结合样本特征信息进行决策的模式识别分类方法,如果准备了训练样本,该分类技术根据最近距离给识别模式给予分类,而不进行训练,具有直观、简单、高效等诸多特点。
设:c个类别ω1,ω2,…ωc的模式识别问题,ωi类中有Ni个样本向量xj(i),(i=1,2,…,c;j=1,2…,Ni),训练样本(所有类别)的总数: 。
在定义模式相似性测度后才能划分模式的类别,并通过划分模式类别来表征模式间的相似度。x、y之间的向量差可以度量模式特征向量x、y的相似度,记录该向量差为距离d的欧式范数,即欧式距离:d(x,y)=||x-y||2=||x-y||。该距离具有平移不变性、旋转不变性。
最近邻法之模式识别分类思想为:待识别模式向量假设为x,计算x与各已知类别的样本模式向量xj(i)的距离,把它判决为最短距离的样本所属类别。
由最近邻法的分类思想给出定义ωi类的判断识别函数为:
(1)
判别决策的规定原则为:如 ,则,把它判决为x∈ωm类。此方法研究距离x最近的训练样本的类别来判决x的类别,所以,定义此方法为最近邻法。
如果就单个样本,难免会有偶然性效应,为此,实际操作过程中,可以观察待识别模式向量的k个临近样本,从而总结得出在这k个临近样本中所属样本最多的类别来决策类别,以增加分类的可靠性。设k1,k2,……,kc为x的最近邻的k个样本分别属于ω1,ω2,…ωc类的样本数,即 ;在ωi类中具备Ni个样本训练模式向量xj(i),(i=1,2,…,c;j=1,2…,Ni),训练样本(所有类别)的总数为 。
ωi类的判断识别函数定义为gi(x)=ki,i=1,2,…,;判别决策的规定原则为:如 ,则,把它判决为x∈ωm类。此方法一般称其为k-近邻法。
k-近邻法统计意义上的解释由Cover和Hart给出,研究结果证明:当待识别模式向量x的最近邻k和训练样本总数N和∞,且k/N0时,k-近邻法的分类误识别率与Bayes决策的分类误识别率相等,当样本数量N∞时,k-近邻法性能表现。
当k值小于各类样本的最小值时,k值与算法的稳健性成正比,即k值越大,算法越稳健,如果不具备k值小于各类样本的最小值,近邻就不是样本的局部近邻,有研究指出k取值为 或 。k-近邻法以k值为数,像票决一样,尽可能避免票数相等,难以决策。在N趋于无穷大时,k-近邻法的准确率要明显高于最近邻法。
3基于PCA变换和k近邻法的印刷体识别算法设计
主元个数 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
识别率 32% 78 86 90 88 86 90 88 86 86 88 90 88 92 92 92
4实验结果及分析
通过PCA变换和k近邻法的印刷体识别算法实验可知,在主元个数在1-4时,识别率成明显上升趋势,主元个数在5-13时,识别率有上下波动的趋势,主元个数大于14后,识别率趋于稳定,且识别率达到92%。
参考文献:
[1]章慎锋,杨淑莹,王厚雪.基于Bayes决策的手写体数字识别[J].天津理工大学学报,2006.
[2]胡合兴.经验模型分解在手写体数字识别中的应用[J].湖南文理学院学报(自然科学版),2005.
[3]唐,刘波,蔡自兴,谢斌.基于二维主成分分析的交通标志牌识别[J].计算机科学,2010.
篇7
关键词:Speech SDK;语音识别;Voyager-IIA旅行家二号;教学平台
中图分类号:TP319 文献标识码:A 文章编号:1672-7800(2013)005-0096-02
0、引言
教学技术的进步关键在于构建一个良好的辅助教学支撑平台,通过该平台教师可以方便地展示教学课程信息,学生利用该教学平台可以进行科学实验和工程实践,以获取真实的实验数据。
机器人学作为一门综合了机械、电子、计算机及人工智能、仿生等诸多专业的新兴学科,在工程研究和应用领域得到了越来越广泛的重视。我国各大高等院校也纷纷开设与机器人相关的课程,这对普及机器人知识和加强其产业化进程无疑会起到重要的作用。
基于这种理念,设计了基于ARM11的智能语音识别机器人教学平台。
1、语音识别机器人教学平台现状
教学技术平台是开展各科教学的必要条件,是现代教育教学开展的基础。从近年发展的情况看,各种教学平台的设计与运用在教学过程中起着越来越重要的作用。如何设计满足现代学习者需要的教学平台?如何将计算机技术、通信技术、机器人技术发展优势同现代教学的需求结合起来?这是现在教学平台发展至关重要的方面。现代教学平台在技术发展驱动和现代教育应用形态发展需求下,出现了许多不同的个性化教学技术平台。
随着人们对现代教育认识的加深和对传统教育的反思,人们的知识观和教育观发生了很大变化。高校课程改革大举推进,高等教育更要突出实践、突出创新。高校课程要突出沉浸感、交互性、自主性等特征。教学平台本身将从以教学机构为中心逐步走向以学生为中心,教学平台从提供教学内容、教学产品转向为学习服务的功能。
国内外许多高等院校都已开展了机器人教学工作。麻省理工学院开设了认知机器人学、机器人学导论、自控机器人设计竞赛和机器人编程竞赛等课程,分别在航空航天学、机械工程学和电气工程与计算机科学专业中开设;北京邮电大学为本科生开设了工业机器人技术,相应的实验课为机器人系统综合性试验;浙江大学自动控制系为本科生开设了机器人学,在校内组织了多种形式的机器人竞赛活动,包括FIRA小型足球机器人竞赛、开放性公共目标机器人竞赛等。总之,国内外高校广泛开展了以机器人为对象的教学平台建设,开设机器人技术课程、开展本科毕业设计的机器人实践活动以及多层次机器人竞赛活动。
2、语音识别技术基本方法
语音识别技术目前的主流算法,主要有传统的基于动态时间规整(DynamicTimeWarping,简称DTW)算法、基于非参数模型的矢量量化(Vector Quantization,简称VQ)方法、基于参数模型的隐马尔可夫模型(Hidden Markov Mod—els,简称HMM)方法和基于人工神经网络(Artificial NeuralNetwork,简称ANN)等语音识别方法。
3、语音识别机器人教学平台研究与设计
3.1 设计思路
语音识别机器人教学平台,将Windows CE6.O系统定制和移植到以ARM11为处理器的核心板上,并且在Windows CE6.O系统上实现对机器人的语音控制,从而摆脱基于PC机控制的不便。在实现过程中,将应用微软公司开发的Speech SDK5.1为平台,通过调用微软的SpeechSDK语音识别引擎,使用开发板串口连接并驱动机器人执行一些简单的行为动作。
3.2 语音识别机器人教学平台系统架构
本教学系统采用的$3C6410是一款基于ARM11内核的微控制器,其主频达667MHz,并具有丰富的接口。本控制器(如图1)的硬件主要包括采用ARM11内核的$3C6410微处理器、机器人驱动器、电源、串口、麦克风、扬声器等。
本语音识别机器人,主要由开发板的麦克风接口进行语音信号的采集,通过控制器扩展板进行语音信号的处理,处理时调用微软的语音识别引擎进行语音信号的识别与合成,然后通过内部编程由扩展板的串口向机器人发送相关的指令来驱动电机的转动,从而实现机器人的左转、右转、前进、后退、停止等语音控制。
3.3 教学平台系统移植模型
系统移植模型(如图2)协助WindowsCE实现广泛的硬件支持,同样使用了工具和软件接口技术整合的形式。这一层的可移植性主要在3个层面:CSP支持不同的处理器系统结构;BSP支持不同的硬件主机板(I/0、总线等等);驱动程序支持不同的。从工具的角度看,开发工具主要是以指导手册的形式协助开发者配置修改一个具体的OAL。驱动模型被包括在Windows CE的类别驱动程序中,这些类别驱动程序一般由Windows CE操作系统提供。
3.4 语音识别类封装及算法实现流程
语音识别过程是将自然语言转换为数据信息的过程,语音识别技术也可以简单描述成Speech-to-Text的识别。该语音识别系统的处理过程是:学习者通过语音输入设备输入语音信号,然后通过语音接收器接收语音数据转化为数字信号,传入语音识别引擎进行处理,语音识别引擎处理完成后传递给相关语音识别程序去处理相关应用,从而达到利用语音来实现某种控制的效果。本系统的语音识别类封装和语音识别算法实现流程如图3所示。
篇8
14年前,志在语音识别的科大讯飞在合肥悄然成立,当时还被外界讥笑为“草台班子”的这家本土创业公司,如今已经发展成为亚太地区最大的语音上市公司。作为中国语音识别的“领头羊”,科大讯飞的这个标签还能贴多久?在科大讯飞副总裁兼创始人之一江涛看来,科大讯飞的突破点在于,提供语音识别的技术和服务,解放人们的双手。
“草台班子”的摸索
创业之初,科大讯飞希望改变人类使用电脑的方式。但事实证明,时候未到。
上世纪90年代末,语音识别技术已经在全球范围内掀起了一波热潮,科大讯飞也是顺着这股热潮成立的。“彼时,IBM、英特尔等几大主流科技公司也早已开始语音识别技术的研发和商业探索。”江涛告诉《二十一世纪商业评论》(以下简称《21CBR》)。1998年IBM了第一个基于语音识别技术的产品。第二年全球科技十件大事之一便是IBM的语音识别技术,计算机第一次能够进行语音输入。除了IBM,英特尔、摩托罗拉、松下等很多国外巨头也都开始在国内设立语音研发中心,希望在人机交互和信息录入领域抢占先机。
“但是在后来证明,这个技术和产品在当时的条件下是不成熟的。”江涛认为有两个方面原因:一个是当时的语音针对PC,而PC相对于键盘和鼠标这些交互设备比较成熟,语音的需求并不够迫切。另外,“当时整个云计算、移动互联网的环境和体系还没有形成。全是单机,在一台机器上安装一个语音识别系统需要锻炼很久,使用成本太高。”
即便如此,直到2000年前后,中国的语音技术基本都掌握在IBM等大公司手中。而像科大讯飞这样的本土创业公司,空有实验室技术,在当时的环境下不知道该如何面向市场,面向用户。“我们一直到2004年才盈亏平衡,在这个过程中我们没有钱,也不知道该怎么开拓市场,所有人都是技术出身,都没有产业经验。”江涛说。
创业之初,科大讯飞希望改变人类使用电脑的方式。“我们当时做了一个叫做‘畅言2000’的产品。口号是把键盘输入的准确性、语音输入的方便性、手写输入的随意性融合在一起,它可以打开浏览器,打开Word,然后配合手写板输入内容。”这是科大讯飞的第一个产品,一套软件当时的定价是1000多元人民币。“但是去哪里推广,怎么做推广,我们完全不知道。”
随着“畅言2000”以失败告终,苦于推广无门的科大讯飞第一次参加了当年的高交会。“当时华为等一些做电信设备的厂商公司发现了我们,在他们的呼叫中心智能网中间有需要使用语音的地方,比如说语音合成,呼叫中心的语音播报,智能网中间的信息播报等。”很快,迅飞便跟华为、中兴等一些大的厂商对接上,成为它们的语音技术提供商。
“我们后来一想也是这样,一个创业团队没有市场经验,也没有市场能力,没有资金,不可能去做‘2C’的市场,那个时候的条件也不具备。做‘2B’的市场,做自己擅长的部分,把技术提供给合作伙伴,然后合作伙伴去做对应的应用更可行。”江涛说。这是科大迅飞的第一桶金,也是第一个商业模式。“依靠这个模式,我们实现了盈亏平衡。到2004年,我们已经是中国最大的语音技术提供商。”
在尝到了做“技术提供商”的甜头后,2004年,手机彩铃被引进中国,“在没有智能手机的时代,面对几十万首歌,用户在电话里怎么选?”江涛说,为此,迅飞开发了针对音乐的语音搜索,“想下载谁的彩铃,听谁的歌,直接在电话里面语音搜索。”在这个基础上,迅飞进一步把技术应用到跟音乐、彩铃下载和搜索相关的其他领域。“现在联通、电信,还有移动,相关于音乐的语音搜索技术全部由讯飞提供。”江涛说。
基于同样的思路,迅飞开始把语音识别技术扩展到教育领域。“从技术上看,针对这两个领域,迅飞所做的事情主要是语音合成,把语音转换成文字。”江涛告诉《21CBR》,虽然在当时这个技术事实上已经没有门槛,但迅飞的优势在于做“技术提供商”的商业模式和针对细分领域提供的服务。目前,针对音乐和教育领域的收入依然是迅飞营收的主要来源之一。“现在音乐领域每年的收入大概在一个亿左右。”
从技术到服务
语音识别不是完全靠算法能解决的,时间和数据积累才是最大的壁垒。
2008年前后,中国开始发放3G牌照,以苹果、安卓为代表的智能机逐步兴起。“我们觉得这个时候语音技术真正的机会才出现,因为智能手机相对于PC来说,屏幕更小,输入更不方便,语音在人机交互过程中显得更有价值。”江涛说。目前,讯飞所开发的手机应用讯飞语音已拥有超过2亿用户。
“我们现在最大的挑战还是用户的习惯,尤其是中国人觉得对着手机说话太傻了。”江涛说。好在随着苹果、谷歌加上腾讯的微信正在不断地教育用户的使用习惯,越来越多的人开始适应这种跟机器的交流方式。
科大讯飞在移动互联网领域的另一个产品是讯飞输入法。“我们从2011年开始做这个产品,当时讯飞没有任何知名度,没有品牌,完全靠用户口碑来推广。”江涛说。目前,讯飞输入法的用户超过8000万。
尽管移动互联网来势汹汹,江涛和他的团队还是希望把自己定位为“语音服务提供商”。“我们一方面还会持续面向电视机、汽车、地图等合作伙伴提供语音技术,另外一方面也会以输入法这些产品为代表,面向用户提供直接的交互服务和终端产品。”江涛告诉《21CBR》记者。目前,康佳、海尔、创维、海信等电视厂商都采用了迅飞语音识别技术和开发平台。讯飞也与国内主要汽车电子厂商及车厂等建立了合作,包括奇瑞、江淮、上汽、奥迪、德尔福、大陆电子、哈曼等,但这一领域对公司营收的贡献微乎其微。
从技术的角度来看,语音识别在过去20年的发展和进化过程中早已不再拥有高门槛。在外界看来,科大讯飞缺乏足够宽广的护城河——掌握互联网入口的企业百度、腾讯等巨头,都在觊觎语音识别领域。而随着3G网络和智能终端的普及,这些条件又为语音识别打开了一扇新的大门。江涛也认为:“目前,就技术上的发展来讲,语音识别的门槛的确不高,大数据云计算带来了更加开阔的技术可能性和便利。”
篇9
上面这段并非笔者杜撰,而是著名的语音和图像解决方案提供商Nuance公司研发工程总监张亚昕为大家描述的语音识别技术在车载系统中的应用情景。
其实,语音识别技术早已有之,1998年,飞利浦和摩托罗拉就将语音识别技术引入手机,但并没有引起人们的关注,直到去年苹果iphone 4里的Siri出现,才让人们真正开始关注语音识别。张亚昕认为,这主要是因为以前的技术只能进行特定词汇的语音识别,而如今的语音识别技术可以识别自然语言,真正让用户体会到了流畅自然的人机交互体验。
也许是因为汽车内安全驾驶的重要性吧,语音识别技术特别受到了汽车市场的青睐。越来越多的汽车制造商开始在汽车中装入语音识别接口,用于管理移动连接;同時提高驾驶安全系数。Strategy Analytics的统计表明,到2012年,中国原始设备制造商(OEM)所提供的具备语音人机接口的信息娱乐和车载信息通信系统(telematics)的出货量将达到300万台,并预期在2018年达到20009万台。
但是,语音识别是非常耗费资源的一项工作,在目前的应用中,用户接口依赖于通用型硬件和软件,一般采用通用的应用处理器,语音识别只是众多应用中的一个程序,系统硬件无法为语音处理做出优化,限制了处理速度和处理精度。例如,在车载GPS应用中,地图软件的运行就会占据处理器很多资源,这种情况下,启用语音识别将会给CPU带来很大负担,处理能力上的不足会影响语音识别的速度和准确度,让用户体验大打折扣。
篇10
关键词:计算机仿真;语音识别;算法
引言
当下对于语音识别技术的研究处于初期阶段,但现在市面上出现的大量语音识别的产品例如DragonDictation,Siri等表明语音识别技术还拥有巨大的发展与应用空间。
1提出背景
目前大多数的语音识别设备在算法上都是基于传统的GMM方式,传统的GMM方式的核心思想是利用多个高斯分布的概率密度函数组合来描述特征矢量在概率空间的分布状况。传统的GMM方法需要先计算所有说话人模型的识别概率p,然后取识别概率最大的说话人模型作为识别结果。而人类在进行说话人识别时,是一边听取语音,一边做出判断,同时排除掉绝对不可能的说话人,在若干相似说话人之间选择,当有很大的把握性时,做出最终判定。这不同于目前的机器识别方法,总是取固定时长的语音数据,且对所有的说话人均同等对待。传统的GMM模型在说话人集合很大时需要大量的数据收集和较长的处理时间,会影响到分辨说话人身份的准确性。所以我们需要一种更加高效,高可靠性的方式来改进当前主流的语音识别算法,更好的服务于当前信息化社会。
2自适应模型
自适应[1]是指处理和分析过程中,根据处理数据的数据特征自动调整处理方法、处理顺序、处理参数、边界条件或约束条件,使其与所处理数据的统计分布特征、结构特征相适应,以取得最佳的处理效果。在特征提取阶段,根据不同的说话人,选取不同长度的语音提取特征,对于易于区分的说话人,只选取少量语音就可以正确识别,对于难于区分的说话人,提取大量语音进行识别,从而在整体上减少了提取特征的时间;在识别阶段,只选取少量语音进行总体说话人识别模型的识别概率计算,而选取较多的语音,对前期选取的识别概率较高的说话人模型计算识别概率,从而一方面保证不降低识别率,一方面大幅度减少识别时间。
3研究目标及主要内容
3.1研究目标。我们研究的主要目标是通过MATLAB模型仿真功能,实现基于自适应的语音识别技术来确定说话人身份。在收集到语音信号的后,完成对信号的处理,主要是基于MFCC的特征提取实现语音库的搭建,之后使用自适应的语音识别技术,将原先采集到的信息和后续说话人所说的语音在自适应的模型下进行比对,来确定说话人是否为本人,并且借助设别对结果进行显示,最终实现一个输入-处理--输出的语音识别平台搭建。
3.2研究内容。以MATLAB软件为主要工具,配合所搭建的输入设备,显示设备完成一个可以应用的说话人身份识别系统的搭建。(1)深入研究语音信号的采集方式,能够将通过设备将采集到的语音信号进行处理,并在MATLAB中实现编程,为后续的语音识别提供素材。(2)通过研究自适应模型的原理,设计基于其原理的算法,将(1)中经过处理后的语音信号与应用时输入的语音信号进行识别,通过MATLAB完成计算,这一步是整个研究中最重要的部分,运算完成将给出处理结果。(3)搭建显示设备,我们将MATLAB和单片机进行通信,MATLAB将识别结果传输给单片机,我们通过单片机来提供一个显示说话人身份识别信息并与用户交互的平台。
4技术路线
4.1语音数据采集模块。目前所有的语音识别方式都需要一个语音库来进行匹配。基于自适应的语音识别也要在语音库的搭建上进行如下操作。4.1.1采集说话人语音。使用录音笔在消音室中采集到说话人的声音,我们会将模拟信号转成数字信号,并且进行处理。为了得到高质量的声音信号,确保语音库的精确性,我们选择在消音室完成声音采集工作。4.1.2特征提取及语音库搭建。模拟信号进行A/D转换后,我们要对数字信号进行处理,这里我们使用MFCC这种主流的语音信号特征提取方式来进行提取。MFCC[2]是基于了Mel频率的倒谱系数,我们输入样本音频,对样本音频预加重,分帧,加窗,再做傅里叶变换,进行Mel频率滤波,进行Log对数能量提取等操作从而完成采集的语音的特征提取。这一步的核心还是将采集到的模拟信号按照A/D转换使其成为可以通过MATLAB调用的数据。
4.2基于自适应模型的语音识别模块设计。这个模块是我们的研究最核心的部分,我们基于这个模型来实现主要功能。4.2.1当说话人为陌生人,先排除。传统的语音识别主要是将采集到的信号和原来收集的所有信号进行比对从而确定说话人身份,但这样做有时会浪费时间,也可能出现误差。而自适应模型首先去做的就是特征抽取,将已经采集到的语音数据进行处理,寻找到他们的共同特征,当需要识别的信号不符合这种特性的时候,我们首先要将其排除,这样,在排除陌生人说话时会更加简便。在我们对说话人识别前先把陌生人给排除,在说话者不是陌生人的情况下,我们会减少很多干扰因素,能够节约识别时间,提高识别精度。4.2.2当说话人已经在语音库中,确定其身份。我们的算法主要是研究的对象是已经将语音信息导入到语音库中的人群,这里我们要用到SVM[3]技术,SVM是一个可以把低维下线性不可分的问题变成一个高维线性可分问题的技术。在我们自适应语音识别说话人身份时,我们需要对收集到的语音数据进行分类。例如我们收集到1000组语音,按照收集到的语音特征分成250组,每组4个人。当说话人开始识别,我们先去找到这个说话人属于哪个组,然后在这个4人小组里面在进行区分,这样,我们把原先需要一一匹配的说话人识别仅仅需要几步就可以实现。
4.3体现应用的结果显示模块。使用一块单片机与一块显示屏,通过Matlab中的设备控制箱将识别结果传送到单片机,单片机依据识别结果在显示屏进行显示。
5结语
和当前主流的传统高斯混合模型相比,我们设计出的基于自适应的模型结构,可以很大程度上减少在声音识别前所需要收集的数据量,节约空间,同时由于自适应算法的优越性我们也能够在提高语音识别的可靠性,很大程度上减少在识别过程中由于外部因素所造成的误差。
引用:
[1]丁博,王怀民,史殿习.构造具备自适应能力的软件[J].软件学报.2013(07)
[2]李泽,崔宣,马雨廷等.MFCC和LPCC特征参数在说话人识别中的研究[J].河南工程学院学报.2010(06).