自回归语音增强通过声学标记-计算机科学-语音增强-音频标记-语言模型.pdfVIP

自回归语音增强通过声学标记-计算机科学-语音增强-音频标记-语言模型.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

自回归语音增强通过

声学标记

LucaDellaLibera,CemSubakan,MircoRavanelli

ConcordiaUniversity,Mila-QuebecAIInstitute,UniversitéLaval

luca.dellalibera@mail.concordia.ca,cem.subakan@ift.ulaval.ca,mirco.ravanelli@concordia.ca

摘要—在语音处理流水线中,提高现实世界录音的质量和E[18]、AudioGen[19]、MusicGen[20]、SpeechGPT[21]、

可懂度至关重要。虽然监督回归是语音增强的主要方法,但音频SpiRit-LM[22]、NaturalSpeech3[23]和CLaM-TTS

标记化作为与其它模态平滑集成的有前景替代方案正在兴起。然[24]模型所示。语音标记可以大致分为两类:1)语义,

而,使用离散表示进行语音增强的研究仍然有限。以往的工作主

通常通过将k-means聚类应用于大型预训练的自监督

要集中在语义标记上,这些标记倾向于丢弃关键的声学细节如说

本话人身份。此外,这些研究通常采用非自回归模型,假设输出条语音编码器[25]–[27]获得,并捕获语言细节,使其适用

译件独立并忽略了自回归建模可能带来的改进。为了解决这些问于语音识别和口语理解等任务[28],[29];2)声学[23],

中题,我们:1)对语音增强中声学标记的表现进行全面研究,包[30]–[35],通常通过将残差向量量化[36],[37]应用于音

1括比特率和噪声强度的影响;2)引入一种基于转换器的新型自频自编码器来获得,并旨在保留所有信息,使其适用

v回归架构,专门为此任务设计。在VoiceBank和Libri1Mix于多说话人文本到语音和说话人验证等任务。一方面,

5

2数据集上的实验表明,声学标记在保持说话人身份方面优于语义k-means离散化过程往往会导致重要声学细节的丢失,

8标记,并且我们的自回归方法可以进一步提高性能。然而,我们

2观察到离散表示仍然不及连续表示,这突显了该领域需要进一步如说话人身份[38]。相比之下,声学标记保留了更丰富

1.研究的需求。的音频信息,但以更高的比特率为代价,导致序列较

7

0IndexTerms—语音增强,音频标记,语言模型。长。一个有前景的方向是开发混合型tokens[39],[40],

5旨在平衡这两种方法的优势。

2

:I.介绍尽管音频标记化已被应用于各种任务,但关于其在

v

i语音增强旨在通过去除现实生活中录音中常见的语音增强中的应用研究仍有限。大多数研究[41],[42]仅

x

r噪声和混响来提高语音信号的质量。近年来,在这一领专注于语义标记,忽略了更适合保留说话人身份的声学

a

域取得了显著的进展。虽然已经提出了无监督[1]、半标记的潜力。虽然[43]包含了对声学标记的评估,但它

监督[2],[3]和基于强化学习的方法[4],[5]来解决语依赖于简单的基线方法,只使用了一个数据集,并且缺

音增强问题,但迄今为止占主导地位的方法是监督回乏对噪声强度影响的分析。此外,所有这些工作都假设

归。在这个框架中,连续语音特征作为输入/输出,并使了条件独立输出的情况,忽视了自回归建模可能带来的

用重建损失如L1和L2或基于感知的度量如PESQ[6]改进。在本研究中,我们旨在通过以下贡献来弥补这些

和S

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档