基于多元激励的高质量语音合成声学模型-人机语音交互课题组.PDF

下载文档 降价啦

4
0
约1.69万字
约 9页
2018-02-16 发布于天津
举报
版权申诉
保障服务

基于多元激励的高质量语音合成声学模型-人机语音交互课题组.PDF

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于多元激励的高质量语音合成声学模型-人机语音交互课题组

基于多元激励的高质量语音合成声学模型陶建华康永国 (中国科学院自动化研究所模式识别国家重点实验室北京 100080) 摘要：传统的参数语音合成系统，多采用单纯的源滤波模型，缺少变化，通常导致在韵律变化较大或生成特定语气时，音质损伤较大。本文则在语音逆滤波过程的基础上，对声源在不同韵律特征和音色条件下的变化进行了仔细的比较分析，通过声源的重构、分类，进而形成了适用于多种韵律特征和音色特征的多元激励（Multi-Source, MS）模型。在此基础构建了基于多元激励的语音合成的声学模型，在一定意义上较大的提高了语音合成在大范围语气变化中的合成质量，对个性化语音合成，以及超小型语音合成系统的建立起到了较好的推动作用。关键词：语音合成; 声学模型; 声源; 多元激励中图分类号：TP391 文献标识码：A Multi-Source Based Acoustic Model For Speech Synthesis Jianhua Tao, Yongguo Kang National Laboratory of Pattern Recognition, Institute of Automation, Chinese Academy of Sciences, Beijing 100080, China Abstract: Traditional source-filter model has obvious limitation for speech synthesis in pitch modification due to the lack of spectrum distortion processing. To solve the problem, the paper compares spectrum features of voice source in various F0 ranges and timbres in detail, and generates Muliti-Source (MS) based acoustic model for speech generation in various prosodies and timbres, by classifying and reconstructing voice source into different types. The model enhances the quality of speech synthesis even with strong changing of the speaking mood. It is important for future research on personalized and embedded speech synthesis system. Keywords: speech synthesis; acoustic model; voice source; multi-source 一、引言近十来年语音合成技术获得了飞速的发展，尤其是基于大语料的波形拼接技术，使得语音合成整体质量获得了很大的提高，并成功的应用在众多的商用场合。但随着语音合成系统趋向小型化和个性化的发展，基于波形拼接的技术越来越显示出其局限性。而传统的基于参数的语音合成模型，由于清晰度和频谱关联特性的限制，限制了它们的使用，其语音合成质量难以提高的主要症结并不完全在于算法中语音合成的声道模型，也极大的受限于模型的激励信号。例如：一个经典的共振峰语音合成器多采用 LF 或 KLATT88 声源模型，在合成中缺少变化，这是进一步提高音质的重要障碍。 Klatt 串并联共振峰合成器是美国MIT 著名的言语和听力学家 D.Klatt 的研究成果，他于 1980 年在美国声学杂志上发表了“Software for a cascade/parallel formant synthesizer”[2]，这篇论文对语音合成声道模型的探索具有重要的意义。由于其模型具有较好的