语音性别变换实现.docVIP

下载本文档

7
0
约9.2千字
约 12页
2016-03-08 发布于山西
举报
版权申诉

语音性别变换实现.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音性别变换实现

语音性别变换的实现摘要：语音性别变换是网络聊天、数字娱乐和安全领域中的热门课题。本文讨论一个性别变声方案的高性能算法的实时实现，主要有三个特点：1）基于间接控制的PSOLA方法；2）动态调整的信号处理流程；3）低复杂度、低延时，可在嵌入式系统上实时实现。关键词：重采样，基频检测，基音标注，基频移动，反混淆滤波作者简介：陆成刚、1973年生、男、博士、从事信号处理和机器学习方向的研究；不同于特定目标人变声[1]，语音性别变换的主要任务是对语音进行某种变换使之产生性别变化的特效，例如在男声、女声、老年人声和童声之间互相转换，达到伪装的效果。语音变换在数字娱乐领域有着很广泛的应用[2]。例如一些有名的商用软件AVVCS、VodiSoundTouch等就已经实现了这样的功能，国际权威的语音科学软件Praat也有这样的功能。在电信领域，已经有运营商开展了这项称之为“魔话”或“彩话”的业务，甚至一些通信终端设计商也瞄准这个应用在手机上实现变声软件的功能[3]。在业界，Praat被公认为实现了一个优秀变声效果的系统，但是它有两个缺陷，一、它的基频检测模块复杂度较高、基于动态规划的后端处理需要较多的语音延时，经过实测，在ARM7系统上，该模块需要800多MIPS，这是成为嵌入式实现的制约瓶颈，而它的延时一般在百毫秒级别，不利于实时语音通信；二、它的实现不是基于帧的，是离线的，其PSOLA直接控制模式如果应用到实时系统，获得长期稳定的高质量语音比较困难，这一点下文有详细的剖析。其他产品或系统如AV VCS等几乎都是基于类似相位声码器的基频移动（pitch shift），附加后端均衡器调制的原理实现的；还有一些系统如SoundTouch等，是通过WSOLA(波形相似叠加算法)变速和重采样（re-sampler）变调实现的，就是“拉长”，然后“变速”Praat所基于的方法的不同之处是不需要做基频检测，因而没有用到PSOLA合成，好处是更容易获得稳定的高质量语音，但是处理的变声效果则显得有一点卡通化、缺乏真实感和自然度。Vodi是一款实现原理类似于Praat的商用软件，并且是实时实现的，在22050赫兹采样频率下，男声变女声的处理在普通P4-3G机器上的CPU占用率高达80％左右，系统开销高于Praat。表1是各类系统的一个比较。表1 各类系统的比较原理实时性变声效果语音质量 Praat PSOLA 离线好，真实、自然好 SoundTouch WSOLA 实时较好，有一点卡通化好 AVVCS 基频移动和后端均衡处理实时较好，有一点卡通化好 VoDi PSOLA 实时好，真实、自然好 2．变声原理语音科学家将人类发声过程视作一个由声门源输送的气流经以声道、口、鼻腔组成的滤波器调制而成的[4]。人类语音可分为有声语音和无声语音，前者是由声带振动激励的脉冲信号经声腔调制变成不同的音，它是人类语言中元音的基础，声带振动的频率称为基频。无声语音则是声带保持开启状态，禁止振动引发的。一般来说，由声门振动决定的基频跟说话人的性别特征有关，如表2，而无声语音则没有体现这个特征。说话人的个性化音色和语音的另外一个声学参数——共振峰频率的分布有关。儿童由于声道短，其共振峰频率高于成年人，成年女性的声道一般短于成年男性，所以女性的共振峰频率一般高于男性。表2 男声、女声和童声基频、共振峰频率关系表人群基频分布Hz 共振峰频率分布男声 [50, 180] 偏低女声 [160, 380] 中童声 [400, 1000] 偏高由上可知，在进行性别变声时，主要考虑基频和共振峰频率的变化。当基频伸展，共振峰频率也同时伸展时，可由男声变成女声，女声变成童声；反之，基频收缩，共振峰频率也同时收缩时，则由童声变女声，女声变男声。为了获得自然度、真实感较好的变声效果，基频和共振峰频率通常必须各自独立地伸缩变化，如图1。图1 基频和共振峰频率分布的变化共振峰频率的改变是基于重采样实现的，从重采样原理知道，这也同时引发了基频的变化，为保证基频变化和共振峰频率变化的独立、互不相关，在基频移动时必须考虑抵消重采样带来的偏移，理论上只要基频检测足够精确，确实可以保证基频改变和共振峰频率改变间的互不相关。SoundTouch和AVVCS系统之所以难以保证变声效果的自然度主要是没有采用基音检测将基音移动和共振峰变化彻底隔离的缘故。 // Transposes the sample rate of the given samples using linear interpolation. // Mono version of the routine. Returns the number of samples