语音合成技术范文

时间:2023-03-15 13:26:55

导语:如何才能写好一篇语音合成技术,这就需要搜集整理更多的资料和文献,欢迎阅读由公务员之家整理的十篇范文,供你借鉴。

语音合成技术

篇1

关键字语音合成,文语转换,语音人机界面

1引言

由人工通过一定的机器设备产生出语音称为语音合成(SpeechSynthesis)。语音合成是人机语音通信的一个重要组成部分。语音合成研究的目的是制造一种会说话的机器,它解决的是如何让机器象人那样说话的问题,使一些以其它方式表示或存储的信息能转换为语音,让人们能通过听觉而方便地获得这些信息。

语音合成从技术方式讲可分为波形编辑合成、参数分析合成以及规则合成等三种。

波形编辑合成,这种合成方式以语句、短语、词或音节为合成单元,这些单元被分别录音后直接进行数字编码,经适当的数据压缩,组成一个合成语音库。重放时,根据待输出的信息,在语料库中取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式,也叫录音编辑合成,合成单元越大,合成的自然度越好,系统结构简单,价格低廉,但合成语音的数码率较大,存储量也大,因而合成词汇量有限。

参数分析合成,这种合成方式多以音节、半音节或音素为合成单元。首先,按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库;输出时,根据待合成的语音的信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新还原出来。

规则合成,这种合成方式通过语音学规则来产生目标语音。规则合成系统存储的是较小的语音单位(如音素、双音素、半音节或音节)的声学参数,以及由音素组成音节、再由音节组成词或句子的各种规则。当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形。由于语音中存在协同发音效应,单独存在的元音和辅音与连续发音中的元音和辅音不同,所以,合成规则是在分析每一语音单元出现在不同环境中的协同发音效应后,归纳其规律而制定的如共振峰频率规则、时长规则、声调和语调规则等。由于语句中的轻重音,还要归纳出语音减缩规则。

现在展开大量研究和实用的是文语转换系统[1](Text-To-SpeechSystem,TTSSystem),它是一种以文字串为输入的语音合成系统。其输入的是通常的文本字串,系统中的文本分析器首先根据发音字典,将输入的文字串分解为带有属性标记的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级和语句结构及语调,以及各种停顿等。这样文字串就转变为符号代码串。根据前面分析的结果,生成目标语音的韵律特征,采用前面介绍的合成技术的一种或者是几种的结合,合成出输出语音。

本文所讨论的语音合成应用系统就是一种面向TTS应用的语音系统。该系统的设计目标是作为人机交互的一种反馈手段,用于将计算机中的数据或状态以语音的形式加以输出。该系统的应用背景是作为卫星测试系统的一个子系统用于增强人机交互能力。通过引入语音合成技术,将原本需要测试人员主动观察的数据、状态或指令等内容以语音的形式即时播报出来,相应的测试人员只需被动收听即可,只有在敏感内容出现时才加以主动观察,从而降低测试人员的工作强度,改善工作环境和条件。在这样的应用背景下,对语音合成系统的要求是响应速度快,计算复杂度和存储空间复杂度低,具有良好的可扩展性和合成语音清晰度高、可懂性强,适于科学术语、符号和单位的发音合成等。基于以上系统需求,我们开发了专门针对科学应用特别是航空航天领域内常见的科学术语、符号、计量单位和数学公式等文本分析模块,以及新型的基于规则和参数的语音合成技术。

2系统结构

图1中给出了本文讨论的语音合成系统的结构框图。

从外部接口上看,该系统的输入为文本输入接口,用户将要发声的文本内容通过此接口送入系统,输入的文本不需特别的格式;输出为音频输出接口,系统将合成的声音以某种编码方式由此输出;此外系统中所有语音信息模型均存储于语音模型库文件中,各种符号、单位标注、单词字母以及词汇的发音等均存储于词库文件中,这些库文件作为语音合成系统的内部输入。

图1语音合成系统结构

从内部结构上看,输入的文本主要通过规范化处理和符号转化,将其中的特殊符号、缩写、英文单词以及计量单位等转换为可识别的发声单元标识。在分词模型中,对输入的文本按预置的分词规律进行单词的划分,通过分词处理就基本确定了句子的韵律结构以及多音字的发音。韵律预测决定各词发音;协同发音决定了各词之间的连接关系。选词模块按照韵律要求及词的发音在词库中选择最优的发音,经过语音重构将波形恢复出来。各词的语音波形经过拼接模块在拼接参数的控制下完成最终语句的合成。

3声学单元的选择及生成

为使合成语音具有较高的清晰度、可懂度以及自然度,通常采取基于波形的语音合成技术。波形拼接语音合成中的合成单元是从原始自然语音中切分出来的,保留了自然语音的一些韵律特征。根据自然语言的语音和韵律规律,存储适当的语音基元,使这些单元在确定的存贮容量下具有最大的语音和韵律覆盖率。合成时经过声学单元选择、波形拼接、平滑处理等步骤后输出语音。通过精心设计语料库,并根据语音和韵律规则从音库中挑出最适合的声学单元,使系统输出高质量的语音。

常见的语音单元候选可以有词组、音节、音素和双音素等。就词组而言,无论是中文还是西方语系,都和确定的语义相对应,因此使用词组作为声学单元可以比较容易的解决合成语音的可懂度问题[2],但是由于词组的类别非常多,而且在不同韵律环境下有着明显不同的表现,这样会造成所需的声学单元趋向于无穷大。所谓音节,一般都是由元音和辅音构成的,元音是音节的主干部分[3]。以汉语为代表的一些东方语系,音节数目较少,而且音节基本上是“辅音-元音”结构,但是对于一些西方语言,音节数目较多,结构比较复杂,而且使用它并不但不能避免大多数协同发音的影响,而且会引起音库容量的急剧增大。音素是最小发音单位,可以使语料库设计时的灵活性好,但由于音素受相邻语音环境的协同发音影响很大,对这些影响考虑的不合理时,就会造成音库在语音和韵律上的不平衡。另外在挑选单元时,由于音素的声学变体很多,所选择的样本不合适时,会导致相邻音素间存在基频和共振峰上不连续,需要采用谱平滑法进行处理,这必然会降低合成音质。

综合上述对音节、词组、音素的分析可以知道,它们各有优缺点,因此在构造波形拼接所需要的语料库时,可以结合不同类型样本的优缺点,例如对于自然语流中经常出现的一些协同发音强的音素、音节组合,在通过波形拼接形成目标语音时,应该尽量避免在这些协同发音影响大的音素组合之间进行拼接,否则单元挑选的稍有不合适,就会造成听觉上的难以接受。所以在构造实用合成系统时所采取的声学单元的类型和长度都将是不固定的[4]。

在选择声学单元构造语音库时,通常利用某种损失度函数来描述具有相同大小语音库的合成能力。一个典型的损失度函数可以表达为:

(1)

其中f为当前声学单元的词频,d为声学单元的预测时长,c为该单元中所包含的音素之间协同发音的大小[4]。在不考虑韵律条件下,构造由声学单元组成的语音库时,应使由(1)表示的损失度函在该语音库上的取值最小为目标。用于拼接的声学单元通常由连续语流中切分获得。通过检索含有大量航天、电子通信、计算机以及卫星领域内关键字的文献,并通过对这些文献进行文本处理,将文献切分成词和句。通过对词汇的统计可以得到词频信息,并在词频信息的指导下挑选由文献获得的句子,使得选出的句子对高频词具有较好的覆盖,这些挑选出来的句子成为稍后需要录制的脚本。

挑选合适的播音员,对照脚本进行合理朗读,并且录音。将录音所得的语音波形数据按脚本以及声学单元的划分进行切分,通常对于汉语可以切分为词、字(CV结构)而英文通常需要切分到词以及少量音素或双音素,从而构成发声单元库。对切分得到的声学单元按其在原句子中的位置(前中后)以及前后相连的字词进行标注。这些标注信息对选词模块的判决提供依据。

4韵律的生成

韵律的声学参数一般包括基频、时长、能量,对于一个TTS系统,韵律生成和控制是十分重要的。韵律参数对于控制合成语音的节奏、语气语调、情感等具有重要意义,而对汉谱普通话,基频是和声调直接相关的物理参数。汉语的构成原则可归结如下:由音素构成声母或韵母,韵母带上声调后成为调母,由单个调母或由声母与调母拼接成为音节。汉语有阴平、阳平、上声、去声、轻声5个调,1200多个有调音节。一个音节就是一个字的音,即音节字。由音节字构成词,最后再由词构成句子[5]。

基于规则的韵律生成。通过对汉语语音学和语言学的研究总结一些通用的韵律规则,利用这些先验知识,可以建立一个基于规则的韵律生成系统。通常规则系统包括两个方面:一是通用规则,比如四个调的基本形状,上声连接的变调规则,时长变化,语气语调的音高变化等;二是目标说话人的特定韵律规则,比如个人的基本调高、调域、语速和停顿等。此外在连续语流中,每个字的发音是会相互影响的,连续语流中一个字的发音的声调与这个字单独发音时的声调会有所不同,在合成的连续语流中,只有具有这种声调变化才能使合成的语音具有较好的可懂度,否则将只会是单字语音的生硬连接。汉语普通话语句中的变调以二字词的变调最为主,因为二字词所占比例约为74.3%。它的调型基本上是两个原调型的相连的序列,但受连读影响使前后两调或缩短、或变低。

基于机器学习的韵律生成。虽然目前已经得到了许多关于韵律的规则,但这些规则对于形成非常贴近自然的韵律还相差很远。为能够发觉隐藏而且难以描述的韵律规则通常利用机器学习的方法来实现韵律的生成。常用的算法模型有隐马尔可夫模型(HMM)、人工神经网络(ANN)、支持向量机(SVM)以及决策树等[5][6]。

基于参数化模型的韵律生成。基于机器学习的韵律模型提取一些人工无法分析的细则,大人降低人工参与分析的工作量,但这种方法同时也存在如下问题:首先,一般的学习算法都要求比较多的数据资源,特别是属性特征比较多的时候;其次,如果己有数据资源分布不均匀,将造成训练的整体偏差,影响分析结果;再次,专家知识没有很好的结合利用进来,是一种信息浪费;第四,训练模型没有和语言特征和人的感知挂钩,无法进行转移和调整。基频和时长是影响人的韵律听感的直接声学参数,两者都是随时间变化和环境变化的。参数模型利用先验知识,先分析基频时长和语言特征、人的听感的关系,对此关系建摸,提取基频时长和语言特征及人的听感直接相关的参数。这样的模型有效利用了专家知识,就可以用不多的数据训练出文本语言特征和参数的关系,同时通过调整模型参数就可以达到改变听感的韵律特征的目的[7]。

Fujisaki模型是一种广泛使用的基频参数化模型[8][9],它主要通过模拟人的发音机理来预测基频的变化。Fujisaki认为基频的改变主要有两个原因:韵律短语边界(Phrase)的影响和音节调(Accent)的影响。基频曲线的产生是按照声带振动的机理,以Phrase和Accent作为预测系统的输入,以基频曲线作为系统的输入,其中以脉冲信号的形式产生Phrase形状,以阶梯函数产生Accent形状。在该模型下基频曲线可以表示为:

(2)

其中函数Gpi(t)以及Gaj(t)的表达式分别为:

(3)

(4)

在表达式(2)、(3)及(4)中各参数含义如表1中所示。

表1Fujisaki韵律模型参数

Fmin基频最小值αi第i个Phrase命令控制系数

IPhrase元素数量βj第j个Accent命令控制系数

JAccent元素数量θAccent命令最大值参数

T0i第i个Phrase命令的时间标记Api第i个Phrase命令幅度

T1j第j个Accent命令开始时间Aaj第j个Accent命令幅度

T2j第j个Accent命令结束时间

Fujisaki模型的机理很简单,对于每个phrase命令,就是以一个脉冲信号通过phrase滤波器,相应的基频值上升到最大点,然后逐渐衰减。对于连续的phrase命令,基频曲线则产生连续的波动。Accent命令由一个阶梯函数初始化,因为accent滤波器的参数α远大于β,使得Accent元素很快达到其最大值,然后迅速衰减。

5系统实现及应用

整个语音合成系统由一系列动态链接库构成,分别对应图2中的各组成部分,各动态库由C语言书写。这种动态库的使用方便未来对局部进行修改。通过对动态库的加载,可以方便的将该语音合成系统集成到任何应用环境中。该合成系统输入以汉语为主,允许混合少量英文单词、希腊字母以及其它通用符号。

声学库中的语音波形分别采样AMR及MFCC两种编码方式,此外MFCC编码后再进行矢量量化处理,由此形成多种码率的声学单元库。采用不同的单元库将获得不同音质的合成结果输出。系统的录音为女声,可以通过一定的算法,如基音同步叠加技术(PitchSynchronousOverlapAdd,PSOLA)算法,在输出端对音色进行修改。

该系统作为我所研制的卫星测试系统的一个关键技术在实际应用中取得了良好的效果。通过该系统所构造的VoiceUI提供了一种全新的人机界面。计算机通过语音将卫星的实时状态汇报给监视人员,极大的降低了监视人员的观察强度,提高了人机系统的工作效率。

参考文献

[1]D.H.Klatt,Reviewoftext-to-speechconversionforEnglish,J.Acoust.Soc.Am.,82(3):737-793,1987

[2]R.Linggard,ElectronicSynthesisofSpeech,CambridgeUniversityPress,Cambridge.1985

[3]J.Allen,M.S.HunnicuttandD.Klatt,FromTexttoSpeech:TheMITalkSystem,CambridgeUniversityPress,Cambridge,1987

[4]陈永彬,王仁华.语言信号处理.中国科学技术大学出版社,1990

[5]陶建华,蔡莲红.汉语TTS系统中可训练韵律模型的研究.声学学报,2001

[6]初敏.自然言语的韵律组织中的不确定性及其在语音合成中的应用.第七届人机语音通讯学术会议,厦门,2003

[7]倪晋富,王仁华.模型化F0曲线中的升降模式控制机制.声学学报,1996

篇2

关键词 广播节目采访;音频技术;制作与合成;措施

中图分类号:TN931 文献标识码:A 文章编号:1671-7597(2014)10-0105-01

质量优良的采访类广播节目不仅要求工作人员充分发挥自身专业特长,还要了解各项采访设施的特性及功效。在采访节目的录制过程中,各工作人员应默契配合、各司其职,更好地提高采访类广播节目的录制质量。

1 优化广播节目采访中音频技术的必要性

在采访类广播节目的录制过程中,优秀的音频技术是整个节目质量的重要保障。科技的不断发展,促使音频技术的处理对象由模拟信号转变成数字信号,传统的音频技术已无法很好地满足现阶段的广播节目需求。目前各国都在积极优化广播音频的制作与合成技术,我国在这一方面的技术水平相对落后。因此,应积极优化采访类广播节目的音频制作与合成技术,从录制过程入手,提高原始音频的录制质量,更好地实现广播节目采访中音频制作与合成技术的优化。

2 录音设施的合理使用

1)话筒的正确使用。高质量的原始音源是采访类广播节目成功的关键性因素,性能优良、使用方法正确的话筒是原始音源质量的重要设施基础。在现场录制过程中,若话筒使用不当,易出现音频严重失真现象及噪音过大等问题,从而对原始声源的质量产生不利影响。而原始声源的质量问题,在后期的修饰加工过程中是无法弥补的,因此在采访过程中正确使用话筒,对于提高音频质量具有重要意义。

一方面,采访人员应充分了解不同话筒的方向性、灵敏度等性能特征,根据实际采访环境选择合适的话筒。例如在进行一对一采访过程中,应采用清晰度较高的单指向性话筒。另一方面,在话筒使用过程中,“喷口”现象明显,即由于话筒过于接近口部,导致说话产生的气流冲击话筒振膜而发出“噗”声,对录音质量产生较严重影响。为了避免这一现象,采访人员在采访过程中,可将话筒保持在离口部15-20 cm距离处,并使声音气流与话筒轴部偏离10-15°;也可以采取在话筒上添加泡沫防风罩的措施,杜绝“喷口”现象的发生,从而提高原始声源质量。

2)周边录音设备的辅助功能。在采访类广播节目的制作合成过程中,应根据实际节目要求,利用各种声音调节设备,对采访过程中的声音素材进行同步处理和加工。可利用均衡器对采访者、被采访者及解说人员的语言进行美化、修饰,加强声音的感染力,进而提高采访类广播节目的影响力。例如在进行室外采访过程中,不同场景环境和不同采访对象可能会导致声音的频率过低、音色不清晰,节目录制人员应使用调音台等录音设施,遵循“降低低频、提升中高频”的调节原则,对音质进行一定程度的修饰。声音制作者应了解不同频率的声音特性,例如调整4 kHz以上的高频可提高声音的表现力,调整30 Hz-650 Hz的中低频可有效加强声音力度。在节目制作过程中,工作人员应及时观察音量表,根据音量表上的显示指标对音频进行调节。若音量表指针进入红线区,表明声音失真。广电总局颁布的《节目录制技术质量要求》中明确表示,声音质量的标准参数为:语言类音频的电平范围为-8-4VU,音乐及其他声音效果的电平范围为-7-0VU。

3 录音制作与合成技术的应用

1)复接技术的应用。复接技术是广播节目制作与合成的最基本技术要求,也是广播制作人多年经验的具体体现,一部质量优良的广播节目往往需要经过几十项复接操作才得以完成。近年来多种录音高新技术的应用,为声音的制作与合成提供了更多便捷。复接技术的核心要求在于合适的录音电平。若原始采访的音频母带电平高,则信噪比相对较高,声音信号容易出现失真现象,对这类声源采取复接操作,会导致节目的音量出现较大差异。因此,应找准母带音频的切入点,对原始音频素材进行加工操作,使原始声音素材的电平与其他音频保持一致,从而提高采访类广播节目的音频质量。

2)充分利用音频工作站。在完成对采访音频的初步制作与合成后,音频制作人员应按照一定的处理原则将采访所得的音频素材输入到音频工作站中,进一步对其进行加工处理。对采访音频素材采取剪接、复制、修改、粘贴等处理手段后,音频制作者可试听合成的音频,根据自身的试听感受对现有合成音频进行调整,不断采用淡入淡出、混合合成等无损操作方法,使整个音频作品更好满足试听要求。只有这样才能确保整个采访节目的连贯性和完整性,为听众提供优质的听觉体验。

3)做好审核工作。采访工作及音频处理工作的最终目的,在于制作一部优质的采访类广播节目。因此,有关节目制作人员和音频处理技术人员应确保各项工作的质量。最终的作品审核人员应树立良好的把关意识,以认真负责的工作态度对合成节目进行检查审核,以保证节目质量。在节目输出过程中,应选择合适的设备参数指标,避免在音频输出过程中可能出现的信息缺失现象,进一步保证采访类广播节目的整体质量。

4 结束语

广播节目采访过程中音频技术的制作与合成,是理论指导和实践经验相结合的产物。节目制作者应充分考虑各方面问题,从录音设施、录音过程中的设备及音频的后期处理加工等方面入手,全面提高采访类广播节目的整体质量。在音频素材的制作与合成过程中,应保证合成音频的完整性与流畅性,为听众提供优质的听觉体验。

参考文献

[1]孙树国.浅谈广播节目的采访与制作合成经验探讨[J].黑龙江科学,2013(06):81.

[2]雒仲楠.基于数字音频技术的广播音频编辑软件构建研究[J].艺术科技,2013(02):8.

[3]纪迎龙.新媒体环境下计算机音乐制作技术的应用与发展[D].东北师范大学,2011.

[4]李晓东.浅谈广播语言节目的外采录制技巧――以经济之声《报时中国经济》为例[J].中国广播,2012(06):58-60.

篇3

关键词:计算机音乐;课程整合;创新

计算机音乐技术是计算机技术与音乐艺术相结合的产物,它充分利用信息技术中的事件分离特点,把音乐音响的诸多属性分离呈现,使我们能够对构成音乐的各要素进行单独处理。这一先天优势在对音乐作品、音乐音响进行分析的时候表现得特别充分。各种音色、不同音区和力度等对作品产生的影响都可以马上呈现出来,鲜明的对比效果巩固和强化了学生的认知,课堂教学效率得到大幅提升。

但是,我们从事的是师范教育工作,计算机音乐更多的是应用在专业音乐创作领域,把它引进到音乐教育领域并开设成为一门课程,其目的和意义是什么?它能对我们的培养对象产生哪些积极的影响?计算机音乐是现代电子技术与音乐艺术结合的产物,作为一种现代化的音乐创作手段,怎样使计算机音乐和普通音乐教育很好的结合?我们的教学投入和人才的产出是否成正比?能否将计算机音乐技术的诸多优点应用于音乐专业其它课程的教学呢?带着这样的疑问和憧憬,1997年5月,经过两个多月的准备,当时的师专音乐系成立了“音乐与电脑”课题研究小组,主要进行计算机与音乐教育相结合的探索。课题组先后在《音乐欣赏》、《基本乐理》、《基础和声》、《合唱与指挥》、《学科教学法》和《视唱练耳》等6门课程中运用了计算机辅助教学,计算机音乐的教学形式也从讲座推进到课堂,并纳入了三年制专科和四年制本科的教学计划,从2000学年度开始,正式将《计算机音乐基础》开设为一门专业基础课程。随着课程建设的深入,我们从基础理论、核心技能和知识拓展三个方面构建了比较完善的计算机音乐课程教学体系,并在实践中不断完善和进步。学校也逐年加大教学硬件的投入力度,截至目前,已建立起2间计算机音乐专业实验室,2间数码钢琴教室,1间电子打击乐教室,1间双排键电子琴教室、1间全数字化高精度录音棚、1间遵循音频行业国际标准构建的苹果计算机系统录音实验室,这样的规模和水平,在省内乃至全国同级院校中都是比较领先的。

一、目前高师计算机音乐课程教学的普遍方式及其局限性

计算机音乐作为一门新兴的学科,自从二十多年前引进到中国以后,就一直没有停下其发展和普及的步伐。据了解,目前全国高等师范院校里的音乐专业,几乎都不同程度开设了计算机音乐的相关课程。部分学校甚至在师资、硬件等条件尚不具备的情况下也跟风开设。而且,绝大多数院校都把计算机音乐作为一种技术操作性的课程开设,主要教授计算机音乐的制作技巧。这样的教学模式,无异于对学生进行软件操作培训,一旦不进行操作实践,学生很快就忘记了,甚至软件升级后就不知就里。

计算机音乐之所以能够产生和发展,是有着重要的理论和实践基础的。它首先是与音乐的紧密结合,其次利用计算机音乐技术可以开发很多教育功能。因此,它与音乐学科的很多课程都有千丝万缕的联系。如果我们离开这些联系孤立的开设这门课程,其结果就会变成职业技能培训。

著名学者李开复曾说过:“如果我们将学过的东西忘得一干二净时,最后剩下来的东西就是教育的本质了。所谓‘剩下来的东西’,其实就是自学的能力,也就是举一反三或无师自通的能力。大学不是职业培训班,而是一个让学生适应社会,适应不同工作岗位的平台。在大学期间,学习专业知识固然重要,但更重要的还是要学习独立思考的方法,培养举一反三的能力,只有这样,大学毕业生才能适应瞬息万变的未来世界。”这段话,完全可以成为计算机音乐这类课程开设的指导性原则。

我认为,作为一种新的音乐创作手段,我们有必要让学生了解并初步掌握其基本理论和基本技能,但是更重要的是,我们要给学生指出该学科可能的发展方向和最新的前沿成果,特别是该学科与其它学科的联系,这对我们培养一专多能的中小学音乐师资具有重要的意义。我们的培养目标是合格的中小学音乐教师,而合格的标准,是要与时俱进、逐步提高的。21世纪的音乐教育工作者,应该是复合型人才,而复合型人才必须在知识结构、能力结构、教学内容以及教学手段等方面优化、更新的前提下才能培养出来。如果不大胆改革传统的教学方法,这只能是一句空话。因此,把革新教学手段、积极探索计算机音乐技术与音乐传统学科的教法整合作为计算机音乐基础课程的发展方向,成为绵阳师范学院计算机音乐课程建设与改革的必然之选。

篇4

关键词:课程整合; 多媒体教学; 网络; 信息化处理; 知识重构

中图分类号:G623.71 文献标识码:A 文章编号:1006-3315(2012)06-017-001

关于信息技术与课程整合,华南师范大学教育技术研究所李克东教授给它定义为:信息技术与课程整合是指在课程教学过程中把信息技术、信息资源、信息方法、人力资源和课程内容有机结合,共同完成课程教学任务的一种新型的教学方式。

本文就信息技术与高中音乐课程整合的应用与创新,进行了研究和论述。

一、在以多媒体和网络基础的信息化环境中实施课程教学活动

1.多媒体教学的应用与创新

多媒体技术是视频图像、音响、图形和文本借助于计算机硬件和软件而实现的有机结合,能充分发挥学生的多种感官机能。在音乐课上,充分合理地运用多媒体技术,通过语言、图像和声音的同时作用于学生的多种感官,让他们左右脑并用,充分调动学生学习音乐的积极性,从而使学生的听、唱、看等综合能力得到进一步的提高。

例如:鉴赏聆听《山林的呼唤》时,结合南方山林图片的滚动出现,实现音画结合,帮助学生感悟音乐之美、自然风光之美,了解抒情、写意型的音乐;播放交响乐队演奏的《1812年序曲》的视频,学习管弦乐队的配置,了解各种西洋乐器的形制和音色,想象1812年那场著名的俄法之战,了解叙事、描述型的音乐。

运用多媒体进行教学优势很多,可是也应该避免滥用。如:将整堂课的教学内容都用多媒体展示,上课的流程完全依赖于多媒体,教师充当“解说员”,学生充当听众,这就违背了学生为主体的教学原则,缺少了师生互动和交流,学生学习的主动性和创新能力没有得到提高;课件做得太花哨,致使学生的注意力完全被花哨的画面和制作技巧所吸引,导致不能集中注意力听课,这就本末倒置了。

刻意地追求信息技术与课程的整合,完全否定传统的教学方式也是不可取的。如果音乐教学中,教师运用语言或范唱范奏就可以达到很好的效果时,就可以不使用信息技术。比如:老师深情并茂地演唱往往最能打动学生,产生情感上的共鸣和拉近师生之间的距离,同时教师的演唱演奏,展示了教师的基本功,也是让学生信服于你的一个很好的渠道。这就远比一些教师花费大把时间来录制、编辑音频文件,然后在电脑中播放来得便利和效果好。

2.网络在教学活动中的应用

20世纪90年代,计算机的发展进入一个新的阶段,其中一个最主要的特征就是网络的发展,网络以其简便的信息查询、便捷的通信手段,很快得到了普及。时至今日,网络已经深入到每个人的生活中。在教育领域,各种教育网站、学校校园网迅速发展、壮大起来。

网络最主要的特点就是信息资源的丰富性和共享性。教师可以利用网络查资料,也可布置学生自主搜寻、查找。教师要充分利用电脑网络这个巨大的教育资源库,引导学生更深更广地学习。例如,学习《梨园百花》时,可充分发挥学生自主学习的能力,课前布置学生通过网络查询戏曲资料,包括剧种分类、戏曲唱腔、伴奏乐器、名家名段等,在课堂教学时,学生能根据自己的认知,结合老师的讲解,形成自己的观点和知识体系。

音乐教师进行创造性的信息技术尝试工作也很多:建立音乐网站,提供音乐知识和音乐课件;建立FTP下载站点,提供常用的音乐资源下载等等。学生还可以编辑资料与信息,与他人进行沟通、交流。在这个过程中,不仅锻炼了学生的思维能力、操作能力,还培养了与他人合作的能力。这些工作的开展和深入,真正实现了资源共享。

二、对课程教学内容进行信息化处理后成为学习者的学习资源

学校和教师要积极创设经过数字化处理的教学资源软件环境,包括满足优化课程学习需求的课本资源;满足扩展性学习需求的校本资源;满足个性发展需要的社本资源。例如我校正进行的校本课程开发,经过定期或不定期的运行和操作,都将形成文本和图片或视频资料,所有的内容和过程以及成果都将上传至校园网,成为学习者的学习资源。

三、信息技术和音乐课程的整合让学生知识获得重构

信息技术和音乐课程的整合,可培养学生获取、分析、加工和利用信息的知识和能力,使他们具有在信息化社会中学习、发展和生存的信息素养;培养学生掌握利用信息技术的学习方式,学会在信息技术环境下对自己的学习活动进行设计、实施和评价,自觉地以不断的学习促进自身的发展和提高,帮助学生知识重构。

篇5

论文摘 要 随着课改实验的进一步深入,信息技术与课程整合下的新型课堂教学如雨后春笋,呈现出一派欣欣向荣的景象。传统课堂教学评价已经在新课程理念下站不稳脚了,其弊端主要体现在评价内容、方式、主体性等方面,如何在新课程理念下提高英语课堂教学评价是我们关注的问题。 

 

目前,班级授课制仍然是课堂教学的基本组织形式,但随着新课程改革的不断深入它也越来越暴露出其缺点。如教学活动多由教师做主,学生学习的主动性和独立性受到一定程度的限制;学生主要接受现成的知识成果,其探索性、创造性不易发挥;学生动手机会较少,教学的实践性不强,不利于培养学生的实际操作能力。受传统教学方式的影响,传统的英语课堂教学评价也暴露出了其弊端,主要体现在以下方面: 

(1)评价内容过于片面。评价内容往往偏离生活实际,重知识而轻能力,忽视了个体差异和个性化发展的价值评价,对学生的情感态度和价值观没有起到熏陶、潜移默化的作用。 

(2)评价方式欠灵活。目前我国评价学生最主要的方式还是纸笔测验,特别是对面临中考高考的学生,不是每月一大考,就是三天两头一小考,这种评价方法造成了一部分学生特别是学习困难的学生无法认识自己的潜能,从而丧失了自我发展的信心和动力。 

(3)评价主体单一。传统课堂教学以教师为中心展开,评价组织形式单一,主要以教师的评价为主,学生多处于消极被动的地位,从不敢奢望自己评价自己,从而忽视了学生的力量,使评价没有发挥真正的作用。 

传统教学评价中的弊端随着新课程改革的不断深入越来越明显地暴露了出来。因此,在信息技术环境下建立一种新的适应新课程发展需要的教学评价体系是亟待解决的问题。《国家英语课程标准》提出“评价是英语课程的重要组成部分。科学的评价体系是实现课程目标的重要保障。”课堂评价是教学中的重要环节,直接影响到学生的学习效果和教师的教学质量。如何运用创造性思维进行英语课堂评价是关键,基于以上问题,下面谈谈笔者的看法: 

1 评价的内容广泛,可以是课堂教学的各个环节的各个方面,注重三维目标评价 

在新教学模式下评价的标准也相应转变成了“教师是否为学习者创设了一个有利于意义建构的情境;是否能激发学习者的动机、主动精神和保持学习兴趣;以及是否能引导学生加深对基本理论和概念的理解等”①因此在评价过程中不能只看考试分数,更应侧重于三维目标的评价,评价学生对运用现代信息技术手段自主学习能力、对英语课程学习的兴趣及态度、信息素养能力、在不同阶段、不同方面取得的进步和发展能力及创造性学习能力等。只有这样,才能真正发挥评价的教育功能,使评价成为学生自我认识、自我教育、自我进步的动力。 

信息技术与课程整合下的教学目的是为了每一个学生的发展,课堂教学也不例外。因此,关注学生在课堂教学中的表现应成为课堂教学评价的主要内容,包括学生在课堂师生互动、自主学习、同伴合作中的行为表现、参与热情、情感体验和探究、思考的过程等等各个环节。通过了解学生在课堂上如何讨论、如何交流、如何合作、如何思考等等学生的行为表现,评价课堂教学。 

2 评价方式灵活多样,从单一化走向多元化 

美国哈佛大学的教育教授howard gardner(霍华德·加德纳)教授认为,每个人都具有多元智能,即智能(语言智能、逻辑—数学智能、肢体运动智能、音乐智能、视觉空间智能、人际智能、内省智能、自然智能)。也就是说,每个人的智能是多元的,并有自己独特的组合,每个人都有能力改进且扩展自己的智能。基于多元智能理论,信息技术与课程整合下的教学评价方式也应趋向多元化。英语学科内容丰富,很多东西是用纸笔无法测试出来的。如学生的听说阅读能力、口头表达能力、角色扮演能力、协作学习能力等就无法通过试卷来评价。具体的评价方式有实际操作测验(例如在七年级英语教学中有这样一课:can you send an e-mail to your friend ?在这种信息技术教学环境中,学生动手实践运用英语给好友发送电子邮件,既掌握了语言的学习,又提高了信息技术应用能力。对于这种评价,应实行实际操作测验评价法,而不是纸笔测验评价)、提问、小组辩论、角色扮演、问题讨论、口头演说、“文件夹”式评价模式(例如根据每个学生在英语课程学习期间所做的工作,建立学生的评价档案。如学生的语音、书写记录,学生参与小组活动的情况记载,学生课余时间的学习拓展情况等统统整理成个人的“文件夹”,以此作为评定学生的一个重要依据)。同时教师在评价学生过程中需要注意以下几点: 

(1)评价时要注意教师评价的语言与方式。德国教育家第斯多惠曾说:“真正的教学艺术不在于传授而在于不断唤醒、鼓舞和激励。”鼓舞和激励的语言是孩子的阳光,是课堂的生命。我们在给学生进行口头评价时,要尽量多地给予正面评价,多角度和多方面地看待学生所作出的努力。评价是为学习服务的,其目的在于提高学生学习效率,成为学生学习的动力和源泉,为学生的终身发展服务。 

(2)教师的评价要避免晕轮效应。评价要避免晕轮效应对价值判断的影响。尤其要注意对“学困生”的评价不要因为教师对其以往认识的偏见随便在收集资料时否定学生的积极行为,而导致评价结果的主观性。 

(3)教师在评价学生时要倾注“爱”。教师在评价时首先要真诚地关爱每一位学生,真诚地倾听每一位学生的发言,不管他是优等生还是后进生,要有的放矢地作出恰当的评价,不可敷衍了事。例如:在听力教学中,后进生因为听不懂某些单词或句子注意力分散,这时教师要注意判断和反馈,如遇见困难单词及句子时适当停顿,然后教师再口头阐述几遍,学生则会因为教师的倾听而感受到教师对自己的尊重和真诚,如此他们会更加积极地投入到学习中,注意力自觉地指向教师所授内容。 

3 评价主体多元化,评价组织形式体现多样性和可选择性 

传统课堂教学中,老师是评价的权威,是学生课堂学习唯一的评定者,评价是老师的专利。这样的课堂显然和新的教育理念不和谐,在新的教育理念下,老师并不是课堂的主宰,课堂上不能只有老师的评价。评价组织形式具有多样性和可选择性,要以学生为中心,将教师评价、学生自评互评有效结合起来,学生是学习的主体,让学生在课堂上参与评价。以形成性评价为主,以学生平时参与各种英语教学活动所表现的兴趣、态度和交流能力为主要依据。只有注重对学生平时学习情况及时地评价,才能有效地提高学生学英语的积极性。 

“多一把衡量的尺子就多出一批好学生。”多元化、多角度的评价,合情合理的评价,来自教师、学习同伴们的评价,这样丰富多彩的评价不仅帮助学生对自己的知识作一次有效的梳理,而且还培养了倾听意识,促进了学生语言的发展。 

教学评价是教学活动不可缺少的一个基本环节,它在教学过程中有检验教学效果、诊断教学问题、提供反馈信息、引导教学方向、调控教学进程等重要作用,因此在新课程标准下有效地进行课堂教学评价是十分重要的。 

 

注释 

① 李秀兰.新教学模式中的教学评价.http//:online edu.org. 

 

参考文献 

[1] 钟启泉等主编.《基础教育课程改革纲要》解读.华东师范大学出版社,2001. 

[2] 吴维宁.新课程学生学业评价的理论与实践[m].广州:广东教育出版社,2004:21-27. 

篇6

【关键词】欣普贝生;催产素;促宫颈成熟;引产

【中图分类号】R719 【文献标识码】A 【文章编号】1004-7484(2013)05-0403-01

引产是产科适时终止妊娠常用的一种方法,对于适合顺产的孕妇,其成功率取决于宫颈是否成熟。近年,欣普贝生(即0.8 mm控释地诺前列酮栓)被应用于临床促宫颈成熟,并取得良好效果。它与传统的催产素引产原理有所不同,本研究拟通过联合应用来发挥二者长处,提高引产成功率,我们随机选取260位2010年1月~2012年12月在我院住院接受分娩产妇,给予欣普贝生联合催产素进行足月妊娠促宫颈成熟及引产,并与使用催产素的对照组进行临床效果比较研究,取得了良好的临床效果,现将结果报道如下:

1 资料与方法

1.1一般资料。2010年1月~20l2 年12月选择在我院住院接受分娩产妇260例,入选标准:(1)年龄20~34岁,孕周37~41周,单胎头位,初产妇;(2)宫颈Bishop评分≤6分;(3)无胎膜早破,无严重合并症及引产禁忌证,胎儿中等大小。按照随机抽签法将260例产妇随机分为研究组和对照组,每组各130例,两组产妇的年龄、孕周及宫颈Bishop评分均无明显差异,具有可比性。

1.2方法。两组产妇在用药前均由专人检测胎心和宫缩情况。研究组产妇给予2.5U催产素注射液(国药准字H11021686,北京双鹤药业股份有限公司)静脉滴注(加到5%葡萄糖注射液500ml),滴速从8滴/min开始,逐渐增加滴速(每隔15~20min)直到出现规律宫缩(10min内有3次宫缩,持续30s以上),最大滴速不超过30滴/min,同时给予欣普贝生(地诺前列酮栓,国药准字J20060054,英国CTS公司生产)1枚(10mg)横置于阴道后穹窿。给药后产妇卧床1h,即可自由活动。若已临产、破膜、出现子宫过度刺激[1](连续30 min内宫缩频率>5次/10 min为宫缩过频;宫缩持续时间≥2 min为宫缩过强;宫缩过频或过强,同时伴胎心率异常,如胎心监护中出现中度或重度可变减速,定义为子宫过度刺激或强直性宫缩迹象)、胎儿窘迫、产妇对欣普贝生发生系统性不良反应(如严重的恶心、呕吐、低血压和心动过速等),则立即将药物取出,否则在给药24 h后取出,并再次进行宫颈Bishop评分。对照组仅按上述方法给予催产素。

1.3疗效判定标准。显效:在给药后24h内临产并结束分娩,Bishop评分提高3分以上;有效:用药后24h未临产但宫颈Bishop评分提高2~3分;无效:用药后24h未临产且官颈Bishop评分提高低于2分[2],总有效率=显效率+有效率。

2 结果

2.1两组临床疗效比较。研究组中显效85例,有效37例,总有效率达93.84%;对照组中显效例35,有效39例,总有效率为56.92%;经统计分析发现研究组的总有效率明显高于对照组,且差异具有统计学意义(P

表1两组临床疗效比较[例(%)]

组别 n 显效 有效 无效 总有效率

研究组 130 85(65.38) 37(28.46) 8(6.15) 93.84*

对照组 130 35(26.92) 39(30.00) 56(43.08) 56.92

注:与对照组比较,*P

2.2两组临产时间比较。对照组临产时间为(28.54士12.41)h,研究组组临产时间为(10.58士4.27)h;经统计分析发现研究组的临产时间较对照组明显缩短,且差异具有统计学意义(P

2.3两组妊娠结局比较。对照组中剖宫产62例,占47.69%,研究组中剖宫产16例,占12.31%;经统计分析发现研究组的剖宫产率明显低于对照组,且差异具有统计学意义(P

2.4两组不良反应比较。研究组中发生2例胎心异常,6例羊水污染,2例过强过频宫缩,1例新生儿窒息;对照组5例胎心异常,5例羊水污染,1例过强过频宫缩,1例新生儿窒息。两组比较上述发生率差异均无统计学意义(P>0.05)。另外,研究组产妇中有2例发生腹泻,1例心慌,而对照组中2例发生心慌,1例发生呕吐,两组产妇均在停药后自行缓解。

3 讨论

前列腺素E2应用于临床促宫颈成熟已有40多年历史,是较为理想的促宫颈成熟药物。其作用机制为通过刺激内源性前列腺素E2的产生及增加宫颈细胞基质水分与粘多糖的含量,使宫颈胶原纤维消失和分离,达到促宫颈成熟的作用。外源性的前列腺素E2也有松弛宫颈平滑肌的作用,有利于宫颈扩张;同时,前列腺素也能促进子宫平滑肌细胞间缝隙连接的形成,诱发子宫收缩,以达到引产的目的[3]。欣普贝生其控释技术可使药物释放更稳定、更安全。

催产素又名缩宫素,临床上广泛用于引产和催产。催产素通过与缩宫素受体结合发挥作用。催产素受体在宫颈上分布很少,故催产素对宫颈的直接作用小,其主要作用是选择性兴奋子宫平滑肌,增强子宫收缩力及收缩频率,从而促进宫颈成熟,诱发产程启动。催产素是公认安全有效并早已用于临床的药物,但长期临床实践发现,缩宫素诱导宫颈成熟效果欠佳[4]。

为了探讨欣普贝生联合催产素用于足月妊娠促宫颈成熟及引产的临床效果。本研究对住院接受分娩孕妇给予欣普贝生联合催产素进行足月妊娠促宫颈成熟及引产,并与单纯使用催产素的对照组进行临床效果比较,研究结果显示研究组中总有效率达93.84%,对照组中总有效率为56.92%,差异具有统计学意义(P

综上所述,欣普贝生联合催产素用于足月妊娠促宫颈成熟和引产的临床效果明显优于单纯使用催产素,剖宫产率降低,临产时间缩短,而且用药安全方便,我们认为在足月妊娠引产中联合使用欣普贝生、催产素,副作用少并能提高引产成功率,能减少因引产失败、社会因素的剖宫产,这对降低产科剖宫产率、提高阴道顺产率、增进产妇身心健康具有重要社会意义,值得临床推广。

参考文献:

[1] Lyrenas S,Clason Ⅰ,Ulmsten U.In vivo controlled release of PGE2 from a vaginal insert(0.8mm,10mg)during induction of labour[J].BJOG,2001,108(15):169-178.

[2] 魏华莉,杨蓓,李春华.欣普贝生与催产素在足月妊娠促官颈成熟及引产的对比观察[J].中华全科医学,2012,10(2):199-201.

篇7

在听书App这样的新兴市场,就已经出现了懒人听书、酷我听书、话匣子等多个产品。但这类产品的共同特点是对有声读物依赖性强,而有声读物却因人工费用较高、资源较少,很快便让一些听书App出现了坐吃山空的问题。

天行听书的妙招

在听书App市场,并非没有人找到解开这一“死穴”的方法。由天行汇通公司研发的手机App应用——天行听书就是个特例。和很多听书软件不同,这款产品一经上市便迅速蹿红。上市仅一周,已在百度移动应用平台突破了“10万+”的下载量,还不包括安卓市场、应用汇、XX手机助手等App下载市场的统计数据。

令天行听书异军突起的,正是其对智能人机交互技术(HCI)的应用。在天行汇通公司,记者见识了天行听书的核心技术——语音合成(TTS)和语音识别(ASR)技术。

“形象地说,语音合成技术的作用就是让你随便输入一段文字,它帮你马上转换成声音。大家用天行听书下载一个TXT文本,然后选择男声、女声或粤语来朗读,不用任何真人去朗读这些文字,它们就能立即变成可以‘听’的书,这就是在应用TTS。”天行汇通董事长张连毅告诉记者,目前国内在这一领域做得比较好的科技公司屈指可数,天行听书的核心技术正是来自于在国内语音合成领域的专家——捷通华声。天行在软件中应用了捷通华声灵云平台中的语音合成和识别技术,当用户用天行听书的书库搜索自己喜欢的书籍时,还可以通过语音进行搜索:不用在搜索栏里打字,只要简单地说出所要寻找的图书名字就可立即自动搜取。这些技术就是HCI,当前还属于全球IT尖端科技研究项目。

听书App不再受有声读物制约

让听书软件不依赖有声读物发展,让读者可以随时倾听自己喜欢的书籍,天行听书的成功证明,TTS和ASR等HCI技术的应用,或许会成为听书App市场突破发展瓶颈的关键。

通过TTS技术,用户可以随时随地将手机本地存储中的书籍(TXT格式)导入到天行听书中进行阅读。由于其本质上并非传统意义上的有声读物,所以用户在语音听书的过程中不用依赖网络,即使在无网环境下依旧可以使用天行听书,随时随地享受“听书”的乐趣,不用像传统听书App那样常受到网络的限制。

很多人都会产生这样的疑问:“语音合成技术会像人朗读那样有感情有抑扬顿挫吗?”据记者了解,在国内,天行听书语音合成技术目前已经达到了该领域中的极高标准。虽然还不能像真人发声那样自然,但听起来已经接近真人发声的自然感。

篇8

1.1 语音合成技术简介

语音处理是目前比较活跃的研究领域之一,它的迅速发展与计算机的发展是分不开的,从中我们可以看出现代科学相互影响的程度。语音是人类最便利的信息交换手段,因此也是人与计算机之间最理想的接口之一。语音处理是多门学科的基础上发展起来的一门综合性技术,涉及声学﹑生理学﹑心理学﹑线形系统理论﹑数字信号处理﹑计算机科学和语言学等领域。

语音识别和语音合成技术是实现人机语音通信,建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话和听懂人说话的能力,是90年代信息产业的重要竞争市场。和语言识别相比,语言合成的技术相对说来要成熟一些,是该领域中近期最有希望产生突破并形成产业化的一项技术。语音识别和语音合成是语音处理所包含的两大重要分支,在这两个问题中,合成无疑是比较容易的.在识别方面,我们还没有关于大脑是如何识别语音和识别说话人的一般理论,即使有这样的理论也不能保证在计算机上简单地模仿就能得到可用的处理方法;而在合成方面,我们已经掌握了语音生成的声学特征,利用现有技术很容易复制发音机理.尽管我们还不大清楚音位转化为语音的心理过程,但在实际的语音模拟上已经取得了成功.

:14000多字

有参考文献及源程序

400元

备注:此文版权归本站所有;。转贴于

篇9

以前,一个在总部产品部门的同事Scott Meredith,也是TTS的专家,在向别人介绍我的时候,总忘不了说一句“She is the motherof Mulan TTS system”。我总是欣然接受“木兰妈妈”这个称呼。

“木兰”是我加入微软后带领几位年轻同事研发出来的中英文双语文语转换系统(text-to-speech,简称TTS)。她不仅能将中文、英文文稿流畅的朗读出来,还能很好的处理混杂着很多英文单词、短语和句子的文稿,在研究院成立五周年的庆祝活动中,木兰名列“十大”成果之一。我常常引以为豪。

木兰凝聚了我多年的心血,就像我的另一个孩子,在我的孕育、抚养下,从无到有、从小到大、逐步完善,改进。最终成功的“嫁”到微软最新操作系统Vista中,并且由此孵化出微软唯一的一个TTS产品部门。

“木兰”是如何诞生的

我是2000年初加入研究院的,是研究院的第一位女性研究员,也是研究院第一个从事TTS研究的人。我带领的这个TFS小组在很长时间都是微软内部唯一的一个从事语音合成技术研发工作的团队。凭借着在中文语言文化上的优势,我们差不多花了一年左右时间专门从事中文语音合成的研究,做出了一个合成效果非常好的原型系统。之后的1至2年内,我们把研究重点转移到了英语语音合成上面,也取得了相当好的效果。

接下来我们选择的方向就是解决中英文混读的问题。随着互联网的发展,中西方文化的交融,越来越多的中文文章中会杂糅有英文内容,可能是某产品的品牌型号,也可能是一首著名歌曲。遇到这样的文章,传统文语转换系统就挠头了。

最典型的解决方案就是在后台架起两个系统,一个专门处理中文,一个专门处理英文。遇到中英文混杂的句子,就将中文部分分割出来送给中文系统,英文部分则送给英文系统,然后将两者的输出合并起来返回给用户。这样做的最大缺陷在于分开处理的两种语言缺乏统一的语调、语气,甚至连声音本身都差别很大。

这样的结果听上去时断时续,极为不连贯。可懂度(能听懂)和自然度(听起来舒服)都比较差。我们当时花了很多精力去物色一个中英文都比较强的播音员,为我们的语音系统录音,这样就可以保证语音数据库中的双语声音是一致的。另外我们还将中英文的处理能力融合在一个系统中,有统一的韵律控制,这样生成的语句即便包含两种语言,也能有统一的语调和节律,就像一个能讲双语的人讲出来的话,这个双语语音合成系统在可懂度与自然度上都取得了较好的效果。我们将这个系统命名为木兰。木兰就是这样诞生的。

之后的一段时间里,我们致力于不断提高木兰的声音质量,并从应用角度探索如何将语音合成技术方便人们的日常生活,例如语音聊天室(一方输入文字,另一方听到声音)、动画配音(为孩子DIY动画故事)、个性化声音加工等,在我们完成了一个又一个有趣的研究项目的过程中,木兰长大了,成熟了。

木兰“嫁”入Vists

在2003年之际,微软公司在着力开发新一代操作系统Vista,当时总部产品部门基本准备购买其他公司的一套现成的语音合成软件。在他们对木兰有所了解后,最终决定用我们的技术成果,这对TTS研究团队无疑是一件欢欣鼓舞的事情,因为能把自己的研究成果转化到服务于用户的产品中是我们的梦想。可是,事情运作起来远投有想象的那么简单。所有的开发和单元测试工作都必须在北京做。而我们这个以研究为主的团队,写程序不是我们最擅长的能力,而且势必占用我们很多做研究的时间。但是,为了一个共同的目标――把自己的研究成果做进微软产品,我们团队的每一个人都非常投入地做这个项目。

刚开始,我们只有5个人,三个来自TTS组,两个来自技术转化组。大家分担着产品开发环节中的各个角色,PM、SDE、SEET,每天都超负荷运转着。正巧,项目启动后不久,微软亚洲工程院宣布成立,它成立的使命是把研究院的最新技术孵化进产品中去,TTS项目也就成了工程院的第一批项目之一。

我们从总部争取到了更多的人员指标,TTS开发组逐渐扩大了,有了专职PM、Developer和Tester。当然,任务也更多了,不光要把TTS做进操作系统,还要做到所有需要TTS技术的产品中去。不光要做中文、英文,还要做西班牙语、日语、法语等二十多种语言,大概在2004年8月份左右,在工程院中,我们已经孵化出一支完整的TTS开发团队,而我们几个仍想致力于研究工作的人逐渐抽身,开始考虑下一步的研究方向。而那时候,为Vista做的工作已经完成了80%以上。

当我的木兰最终“嫁”了出去后,有段时间我产生了一种空落感,茫然若失,TTS作为一个产品化了的技术算是大功告成了,那么接下来应该怎么走,还能做些什么?在这些问题上我们的团队做了很多思考。在随后的两年中,我们主要在语音合成技术的应用化、个性化层面进行大胆的探索,通过把十余种较有代表的地方方言运用到语音的表达中,试图使对话效果更富趣味性、拟人性和娱乐性。在这个创意的基础上,我们做出了一些原型系统,效果还很不错。这些工作都是“木兰”的延伸。

18年的缘份,妙不可言

回想起来,我与语音合成这个研究方向已经结缘十多年了,这缘分源自于硕士入学之初的一次选择。

当时我从西北工业大学保送到哈尔滨船舶工程学院读研究生,我选了语音处理专业。等两年后报考中科院声学所博士时,我依然申请了语音合成方向。从硕士阶段开始算起,到后来留在声学所工作、直到在微软亚洲研究院工作到2007年,我已经在这个领域奋战了近18个年头了。

语音合成是一个交叉学科,既要懂得语音信号处理,还要掌握语言内部的音韵、语法等系统的知识,并且需要能将这些知识很好的融合到语音合成系统之中。此外,还需要了解心理学实验方法,通过各种实验来帮助我们更好地理解人的听觉特点,从而更好的满足用户的需求。正是因为它所要求的相关学科的知识面比较广,才吸引我投入了这么多时间在上面。

而研究院,也是从事这样专注研究的一个好地方,它为每个研究员提供了很好的平台与环境,还有做事情的自由,每个人有很大的自由决定想做什么,不做什么。而且,只要要求合理,研究院总是会保障你有足够的资源做自己的研究。我曾经很奢侈地拥有过一个专门的录音室。在那里,我们进行了各式各样的录音实验,这也是“木兰”会有很好的音质的一个重要保障。

期盼再做一次“妈妈”

到2007年的时候,我已在TTS领域耕耘了十多年了。虽然,颇有收获,但内心深处逐渐萌生去打探一下TTS之外的领域的念头。这时,我对大规模数据加工处理产生了兴趣,这其中麻省理工学院的Victor Zue教授给了我很大的启示。

有一次,他来研究院访问时时,对我们提过这样一个问题:如果将你在做研究中所使用的数据量,乘上一百或者一千倍,同样的问题还能用同样的方法来解决吗?

篇10

从4月12日开通新浪微博到现在,史蒂芬・霍金一共只发了两条信息,然而这两条微博就为他“赚取”了300多万中国粉丝。他的第一条向中国网友问好的微博就获得近百万点赞,此外还有评论和转发各40多万条。相隔一天之后,他在第二条微博中发出的消息再次引起轰动――研发一台“纳米飞行器”,将让人类飞达半人马星座的α星。霍金在微博中称,加入这一计划的,还有俄罗斯“土豪”尤里・米尔纳和脸书(Facebook)创始人“小扎”。

不仅物理大师组的这个“局”堪称梦幻组合,而且他的“突破摄星”计划也让人充满遐想:用激光推进的微型星际飞船,以1/5光速的速度,花20年左右的时间就能到达半人马座α星并发回照片。

实际上,以目前人类在工程材料、推进器等方面的技术水平,无论是用激光还是太阳光,要想把一个即便只有1~10克重的物体加速到光速的1/5,大概也需要比一颗原子弹爆炸的总能量还要大的能量。这种极大的能量集中到“纳米飞行器”上首先会摧毁它。所以,用目前科技发展的眼光来看,霍金探索半人马座α星的计划或许还只是科幻;而能够体现当今科学发展水平的,却是将这位科学天才的身体禁锢了50多年的那台轮椅。

轮椅,霍金形象的一部分

在霍金的第一条微博发出之后,就有中国网友发问:全身不能动的霍金发一条微博需要多久?回答这个问题,要从这位当今人类“最强大脑”的标志性的形象说起。

霍金17岁就入读牛津大学攻读自然科学,他用了很短时间就得到了一等荣誉学位,随后转读剑桥大学研究宇宙学。1963年,21岁的他不幸被诊断患有肌肉萎缩性侧索硬化症(又称卢伽雷氏症)。这是一种无法治愈的致命疾病,病人会慢慢丧失运动能力,后期甚至因为呼吸肌和喉部肌肉麻痹而不能发音,并因而失语。

当时医生判断霍金只能活两三年,然而他后来却坚强地一直活下来,但疾病使霍金的身体严重变形,头只能朝右边倾斜,肩膀左低右高,双手紧紧并在当中,握着手掌大小的拟声器键盘,两脚则朝内扭曲,嘴几乎歪成S形。数十年来,这样奇特的形象和那台轮椅,在全世界面前定格成为一个天才科学家的符号。

患病之后,霍金全身只有三根手指和两只眼睛可以活动,并且只能用极其微弱、难以识别的语言交谈。在1985年因患肺炎而做气管切开手术后,霍金更是被彻底剥夺了说话的能力。当时,美国加利福尼亚州一位名叫瓦特・沃尔托兹的电脑工程师为霍金设计了一个名为“平等器”的电脑程序,其中的文本文件是Word+。这个程序可以让霍金从屏幕上选择词汇,只要他按动手中的开关选择词汇后,就会转入语音合成器,发出声音来。

后来,剑桥调节通讯公司的大卫・梅森改进了这套设备,并安装在霍金的轮椅上,使霍金“说话”的速度大大加快,每分钟可“说”出15个词,如果需要,还可以把文字直接打印出来。

这台世界上几乎独一无二的轮椅不仅是霍金的代步工具,也构成霍金个人形象的一部分。它是一台集计算机软件、通信技术、红外光、语音转换器于一体的人工智能设备,通过它,霍金的思想可以转化为语音和文字,并表达给全世界――包括他的数百万新浪微博粉丝。

霍金轮椅的语音合成器安置在椅背上,可以把他写出的文字转译成独特的“霍金式”电子语音。轮椅上安装有一个12英寸的电子屏幕,即便在阳光下也能让他看得清楚屏幕上的内容和图像。通过这个小小的“窗口”,霍金可以写演讲稿、收发电子邮件,甚至可以用即时通信软件skype来接听电话。

霍金轮椅上的平板电脑拥有Core17处理器,它可以控制轮椅上所有的电子系统。轮椅上的万用遥控器是一个红外线装置,可以用来操作霍金办公室和家里的电视、音响、灯光,甚至可以用来开门、关门。

轮椅上装有一个叫做“盒”的设备,内有USB集线器、音响放大器和整流器,供各种子系统使用。这部轮椅的电源安装在椅座下方,供轮椅移动和整个电脑系统使用。此外,这套系统还装有一套备用电池。

其实,霍金轮椅就是一部智能机器,而且它是随着科技的发展而逐渐升级的,以上所描述的只是这台智能轮椅的基本构造。

发一条微博需要多久

2005年之后,霍金彻底丧失了运动能力――连手指都不能活动了,这让他以前操作轮椅上的电脑的方式完全失效。为此,英特尔的创始人戈登・摩尔(Gordon Moore)为他设计了2.0版的轮椅,使得霍金能继续与外界交流,而且照样通过“交谈”来实现。

新版霍金轮椅主要通过眼动追踪、联想输入和语音合成器播放,来支持这位科学巨人与世界对话。研究人员为霍金设计了一个特殊的眼镜,上面安装了红外线发射器和检测肌肉活动的探测器,可以通过霍金说话时面部肌肉的收缩和舒张来激活辅助系统,并用眼球控制红外线发射器,选定在屏幕中轮流出现的英文字母。

例如,当霍金想说“点子”(idea)这个词时,他的面颊肌肉收缩首先激活辅助系统,电脑屏幕上会出现字母i,这时霍金的眼球动一下,计算机就会不断显示以i开头的英文字母,直到idea出现;霍金再动一下眼球来表示选定这个字母,这就如同普通人用手操作鼠标时的两次点击确定一样。当霍金完成造句后,就可以把这个句子发送到语音合成器上,由后者替他“说”出来了。

有趣的是,由英特尔公司设计的语音系统用的是美式英语,这让一些人尤其是英国女王伊丽莎白,对这位英国国宝级科学家的“口音”颇有微词。她在一次会见霍金时问,“还是美国口音吗?”霍金回答说:“是的,而且这个声音已经拿到了版权。”伊丽莎白女王对英语语音十分看重,以至于英国以她的发音作为英式英语的标准音。尽管如此,霍金轮椅的智能发音系统没能取悦于女王,但是这套2.0版的轮椅毕竟让霍金与世界的交流延续至今。

在升级后的轮椅中,霍金为了使用红外线监测装置,总是要把脸部肌肉绷紧,以便写文章、收发邮件和浏览互联网。到了2011年,他的病情进一步恶化,用这种方式每分钟仅能输入一两个单词,因而不得不再次求助于老朋友摩尔。在摩尔的指派下,因特尔首席技术官贾斯汀・拉特纳(Justin Rattner)组建了一个人机交流技术团队,团队成员专门去拜访霍金,试图为他找到解决办法。在见面的当时,霍金花了20分钟,才发出一句包含30个单词的欢迎拜访者的话。

其后,技术团队对霍金的设备进行了改造升级,研发了一个可供所有残障人士使用的交互系统工具包(辅助情境感知工具包,简称ACAT)。安装升级了这个开源项目后,霍金轮椅可谓升级到2.1版。虽然还是利用面部肌肉动作来操作电脑,但ACAT允许使用者通过几乎任何面部动作来进行交互操作。升级后的软件由于集成了Swift Key人工智能预测技术,霍金仅需要输入15%~20%的字母,电脑软件就能预测出剩下的内容,还能够在每输入一个单词后预测出下一个可能的单词。利用升级后的软件,霍金对文件进行浏览、编辑、管理和在多任务间进行切换、收发电子邮件等日常任务的速度提高了10倍。

在没有使用ACAT之前,霍金的输入速度是每分钟1.5个单词(每20分钟30个单词),在使用ACAT后,他的输入速度至少提高了一倍,也就是每分钟输入3~4个单词。有人计算,霍金在向中国公众发一条有99个词的微博时,即便没有错误,大约也需要30多分钟。再加上思考以及排版、审阅等,估计霍金用了大约40分钟时间,才完成了他向中国粉丝的第一次问候。

“脑控”,轮椅不仅属于霍金

2.1版的霍金轮椅或许在某一天就会因为主人病情的不幸加重而无法使用,因此,人机交流专家已经开始设计3.0版智能轮椅――也许这并非只是为霍金一个人而设计的,所有重度残障人都可能受益于此。而且,由于霍金已经习惯了自己现有的轮椅,而要想习惯3.0版轮椅,这位物理大师可能还需要开始新的学习。

最新版智能轮椅是基于喉部肌肉发音时的收缩和舒张来设计的。当人们说话时,大脑语言中枢会发出信号到喉咙,使喉咙的肌肉群协同收缩和舒张而发出声音。即使一个人说话不说出声,或者说出来的话只是自己能够听到,其喉部的肌肉群也仍然有运动。换句话说,想要说出的话即使仅仅在大脑中,大脑也会产生指令,让喉咙肌肉群运动。如果设计一个软件,能够通过“读懂”喉咙肌肉群的运动来判断要说出的词句,然后传输到语音合成器上,就能形成人的话语。与靠电脑软件检测脸部肌肉相比,这样的“发音”方式要直接很多。

根据这一原理,美国航天总署艾姆斯研究中心研发了一项技术,不仅可以让残障人自主控制电动轮椅,而且能够将思想(想说的话)传送到语音合成器,让后者“说话”。首先,通过一个贴在喉部皮肤上的电极,使用者头脑中只要有“向右”或“停下”的想法(指令),轮椅便会自动探测到喉部微弱的电子脉冲并“翻译”出来,这样的指令正确传达给轮椅后,轮椅就会完成右转或停下的动作。同样,使用者想说什么话,也可以通过软件探测到,并向语音合成器传输指令,让后者替使用者“发声”。

霍金已经尝试过这种人(脑)-机界面,但他感到并不适应。原因有两个:其一,从使用面颊肌肉到通过喉部肌肉收缩来操控,有一个需要重新学习的过程,霍金还没有适应这种新的技能。其二,按照目前的技术,电极摆放的位置如果稍有偏移,辨识的准确率就会从94%下降到50%以下。有时候,电极解读并发送到语音合成器“说”出来的话,并非霍金的本意。所以霍金的轮椅目前并没有正式使用这一系统。

更高级的智能技术是“脑机接口”,即用思想来控制不能运动的四肢。美国大学生伯克・哈特5年前因潜水意外导致颈椎脊髓受损,四肢永久瘫痪。从2014年起,俄亥俄州神经中心的研究人员就开始设计一个植入伯克哈特大脑的芯片来让其思想控制运动。这个植入脑部的芯片名为“神经生命”,它通过连接器与电脑相连。电脑使用特殊软件来解读大脑传来的信号后,发送指令给镶有130个电极的电子手袖套,以刺激手部肌肉,让伯克・哈特得以绕过脊髓,控制手部活动。经过一年多的练习,现在伯克・哈特已经可以用思维控制右手,完成拿起杯子、刷信用卡等动作。

同样,如果把芯片植入大脑语言中枢,就可以在大脑想说什么话的时候通过人机指令让轮椅上的语音合成器说出来。只是,这需要向霍金的大脑语言中枢植入芯片。如果想用思想控制轮椅的运动,也得向大脑运动中枢植入芯片。当然,这种设想中的3.0版本轮椅目前还帮不到霍金,这首先是因为,霍金还不愿意在自己天才的大脑中植入芯片。

目前,霍金轮椅的价格可能是普通残障者所可望而不可即的。由于霍金的轮椅都是科技公司友情赞助的,并不需要他自己“埋单”,因此,还没有人能够给霍金轮椅定一个“官方价格”。据粗略估算,买一台目前版本的霍金轮椅大概得花95万~100万美元。如果将来真的升级到3.0版,恐怕价钱更会高出许多。