A2TTS:面向资源匮乏的印度语言的 TTS-计算机科学-自然语言处理-文本到语音.pdfVIP

A2TTS:面向资源匮乏的印度语言的 TTS-计算机科学-自然语言处理-文本到语音.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

A2TTS:面向资源匮乏的印度语言的TTS

AyushSinghBhadoriyaAbhishekNikunjShindeIshaPandey

GaneshRamakrishnan

IndianInstituteofTechnologyBombay

Abstract理速度。最近,像FastDiff(Huangetal.,2022)

和ProDiff(Huangetal.,2023)这样的基于扩散

我们提出了一种说话人条件的文本到语音

的模型在自然度和鲁棒性方面表现出强大的性

(TTS)系统,旨在解决为未见过的说话人

能,而大型系统如Voicebox(Leetal.,2023)和

生成语音以及支持多种印度语言的挑战。

我们的方法利用了基于扩散的TTS架构,F5-TTS(Chenetal.,2023)则朝着少样本和多语

本在该架构中,说话人编码器从短参考音频言、零样本合成能力的方向推进。

译样本中提取嵌入以对DDPM解码器进行多尽管取得了这些进展,实现零样本说话

说话人生成条件设置。为了进一步增强韵人适应——即在不进行微调的情况下为未见

中律和自然度,我们采用了一种基于交叉注过的说话人合成语音——仍然是一个关键挑

1意力的持续时间预测机制,该机制利用了

v战。YourTTS(Casanovaetal.,2022)和使用x-

2参考音频,使得能够实现更准确且保持说vectors(Snyderetal.,2018)或d-vectors的方法

7话人一致性的时长控制。这导致生成的语

2音与目标说话人高度相似,并改进了持续尝试通过学习嵌入来概括不同说话人的特征。

5

1.时间和整体表现力的模型。此外,为了改UnitSpeech(Kimetal.,2023)基于Grad-TTS,通

7善零样本生成效果,我们采用了无分类器过加入说话人编码器以实现基于说话人的扩

0

5引导技术,使系统能够在未知说话人的条散,从而在不需要显式说话人标签的情况下提

2件下也能生成接近真实语音的效果。采用

:高了零样本性能。

v这种方法,我们使用IndicSUPERB数据集

i在这项工作中,我们扩展了Grad-TTS框

x对多种印度语言(如孟加拉语、古吉拉特

r架以进一步提高说话人适应性和韵律建模。我

a语、印地语、马拉地语、马利雅鲁姆语、旁

遮普语和泰米尔语)进行了特定于语言的们采用了UnitSpeech中的说话人编码器和条件

说话人条件模型训练。机制从短参考音频中提取嵌入。这些嵌入对持

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档