中文语音合成系统中的韵律实现.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文语音合成系统中的韵律实现 郭庆,片江伸之木,张洁,于浩,岩见田均 富士通研究开发中心有限公司,北京.100016 一富士通研究所,明石,日本) Email:guoqing@cn.fujitsu.COal 摘要:本文中,对富士通中文语音合成系统尤其是韵律实现进行了描述。该系统是一个以音节为摹本合成 单元,在韵律参数预测即音长和基频的指导下,从音库中搜寻全局最优的合成单元.然后采用PSOLA算法 进彳亍被形调整的拼接合成系统.从提高台成语音韵律的角度出发.本文围绕音库建设、韵律结构分析,音 长预测、基频预测等方面对该系统进行了详细的描述.最后.给出了韵律评测和系统评测的结果. 关键宇;韵律词组词;音长预测:基频预铡:决策树; 1.引言 语音合成系统的目的是合成高可懂度、高自然度的语音。经过近十几年的研究,现阶段 的语音台成系统大多采用基于大规模语音数据库的拼接合成技术,合成的语音质量已经达到 了实用的地步。其中可懂度已经能够满足应用的实际需要,但是自然度还不够高,与人的自 然语音仍旧有很大的差距。 富士通中国研究开发中心自2004年初开始中文语音合成系统的研发。首先,我们确立了 以音节为基本合成单元,在韵律参数(音长和基频)预测的指导下,从音库中搜寻全局最优 的合成单元,然后采用PSOLA算法进行波形调整的拼接合成技术作为基本技术路线。经过两 年多的研究开发,目前基本完成了富士通中文语音合成系统中各个模块的初步研发工作。并 且,已经开始着手进行产品化方面的工作. 韵律是衡量一个语音合成系统中合成语音的自然度和可懂度的重要因素之一。研究人员 发现,汉语的韵律是由一个分层次的韵律结构体系构成的[1][2]。在这些韵律单元的边界处, 对应着语流中声学参数上的一些特性.如:停顿、基频的变化.或者是韵律边界处音节的时 长变化等特性。对于一个语音合成系统来说。韵律结构能够为韵律参数预测模型提供极其重 要的信息,从而预测出更精准的时长和基频参数,进而在合成语音中实现上述声学参数特性, 使得合成语音的韵律更加自然。 因此。从提高合成语音韵律的角度出发,本文将围绕音库建设、韵律结构预测、音K预 测和基频预测等方面对富士通中文语音合成系统进行介绍。 本文组织如下:第二节为合成单元选取和音库建设,其中介绍了合成单元的选取、音库 文本的设计以及音库的标注;第三节是富士通合成系统韵律实现技术介绍,在本节中,首先 对富士通合成系统从总体架构上进行了简单的介绍,然后围绕韵律方面的研究详细介绍了韵 律词组词、音长预测、基频预测方面的研究工作:第四节介绍了系统研发期间进行的韵律评 一526— 测和系统评测并给出了相应的评测结果:最后。第五节对全文进行了总结。 2.合成单元选取和音库建设 2.1台成单元的选取 在富士通中文语音合成系统中,采用带调音节作为基本合成单元.同时。为了避免在采 用PSOLA算法对选定单元进行声学变换从而获得指定时长和基频的音节的时候可能带来的合 成语音质量的严重下降,PSOLA算法将对该音节的声母平¨韵母分别进行处理。另外.在音长 预测中我们采用声母和韵母(带调)作为基本单元。 2.2音库文本设计 音库文本设计对于构建一个高质量的语音合成系统来说是非常关键的。一般来说,音库 文本设计要做到对于实际语音中大量存在的语音,语言学现象尽可能多的、有代表性的覆盖。 在文献[3][4]中,贪心算法被用于句子抽取,即从一个人的文本语料中.抽取指定数目的句 子,使其覆盖尽可能多的音素上下文和韵律上下文现象。 我们采用1998年人民日报标注语料作为初始的文本语料。该语料库收录了1998仝年的人 民日报,并且进行了分词和词性信息的标注,该语料广泛应用于自然语言处理领域的研究。 为了降低在贪心算法中需要考察的向量空间的大小,我们对音素上下文和声调上下文分 别进行了分类处理,其中的分类处理基本上/diMinChu在文献[3]中采用的方法一致。不过, 我们在此基础上进行了一些小的修改。 首先,所有出现在1998年人民日报语料中的音节(带调)均被附加上了它们的音素上下 文和声调上下文信息。在该语料中共有i,550个不同的带调音节。总的向量空间的大小为: 个实例中,一共覆盖了551,047个不同的向量。

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档