- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多元激励的高质量语音合成声学模型-人机语音交互课题组
基于多元激励的高质量语音合成声学模型
陶建华 康永国
(中国科学院自动化研究所 模式识别国家重点实验室 北京 100080)
摘要:传统的参数语音合成系统,多采用单纯的源滤波模型,缺少变化,通常导致在韵律变化较大或生成
特定语气时,音质损伤较大。本文则在语音逆滤波过程的基础上,对声源在不同韵律特征和音色条件下的
变化进行了仔细的比较分析,通过声源的重构、分类,进而形成了适用于多种韵律特征和音色特征的多元
激励(Multi-Source, MS)模型。在此基础构建了基于多元激励的语音合成的声学模型,在一定意义上较
大的提高了语音合成在大范围语气变化中的合成质量,对个性化语音合成,以及超小型语音合成系统的建
立起到了较好的推动作用。
关键词: 语音合成; 声学模型; 声源; 多元激励
中图分类号:TP391 文献标识码:A
Multi-Source Based Acoustic Model For Speech Synthesis
Jianhua Tao, Yongguo Kang
National Laboratory of Pattern Recognition, Institute of Automation,
Chinese Academy of Sciences, Beijing 100080, China
Abstract: Traditional source-filter model has obvious limitation for speech synthesis in pitch modification due
to the lack of spectrum distortion processing. To solve the problem, the paper compares spectrum features of voice
source in various F0 ranges and timbres in detail, and generates Muliti-Source (MS) based acoustic model for
speech generation in various prosodies and timbres, by classifying and reconstructing voice source into different
types. The model enhances the quality of speech synthesis even with strong changing of the speaking mood. It is
important for future research on personalized and embedded speech synthesis system.
Keywords: speech synthesis; acoustic model; voice source; multi-source
一、 引言
近十来年语音合成技术获得了飞速的发展,尤其是基于大语料的波形拼接技术,使得语音合成整体质
量获得了很大的提高,并成功的应用在众多的商用场合。但随着语音合成系统趋向小型化和个性化的发展,
基于波形拼接的技术越来越显示出其局限性。而传统的基于参数的语音合成模型,由于清晰度和频谱关联
特性的限制,限制了它们的使用,其语音合成质量难以提高的主要症结并不完全在于算法中语音合成的声
道模型,也极大的受限于模型的激励信号。例如:一个经典的共振峰语音合成器多采用 LF 或 KLATT88 声
源模型,在合成中缺少变化,这是进一步提高音质的重要障碍。
Klatt 串并联共振峰合成器是美国MIT 著名的言语和听力学家 D.Klatt 的研究成果,他于 1980 年在美
国声学杂志上发表了“Software for a cascade/parallel formant synthesizer”[2],这篇论文对语音
合成声道模型的探索具有重要的意义。由于其模型具有较好的
您可能关注的文档
- 基于¤群算法改进的扩散函数类内集r外集模型及其灾害-自然灾害学报.PDF
- 基于三维扫描技术的木材断口分形特征-林业科学.PDF
- 基于三轴压缩试验的岩石统计损伤本构模型.PDF
- 基于临床病历数据化的名老中医经验传承方法学研究-中国医院数字.PDF
- 基于中颖8位微控制器的电容式触摸按键控制器设计-SinoWealth.PDF
- 基于二元混合自组装包裹纳米颗粒的微传感器抗体固定方法-分析化学.PDF
- 基于交叉验证与信息扩散的旱灾损失风险评价模型-南水北调与水利科技.PDF
- 基于人-水-地和谐的长江堤防功能-地球科学.PDF
- 基于人脸特征的自适应空域差错掩盖算法.PDF
- 基于交叉耦合映像格子时空混沌的S盒设计-应用概率统计.PDF
文档评论(0)