语音分词器是 CONSISTENT REPRESENTATION 的关键-计算机科学-语音量化-语音编码-语音大语言模型-AI驱动的语音处理.pdfVIP

语音分词器是 CONSISTENT REPRESENTATION 的关键-计算机科学-语音量化-语音编码-语音大语言模型-AI驱动的语音处理.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

语音分词器是CONSISTENTREPRESENTATION的关键

WonjinJung,SungilKang,Dong-YeonCho

SKTelecom

ABSTRACT化,已探索使用对抗性和重建损失的方法[6]。Wav-

语音分词在数字语音处理中至关重要,将连续的语音Tokenizer扩展了VQ中的代码本空间[7]。考虑帧间

信号转换为离散单元以供各种计算任务使用。本文介相关性的方法已被提出以捕捉时间依赖性[8,9]。对

绍了一种具有广泛适用性的新型语音分词器,适用于于嵌入改进,RepCodec关注语义标记生成[10],而

本下游的各种任务。虽然近期残差向量量化(RVQ)的进SpeechTokenizer则使嵌入特征与语义信息对齐[11]。

使用大语言模型训练离散标记已实现有效的多模态性

译步已融入语义元素,但它们往往忽略了关键的声学特

中征。我们提出了一种先进的方法,同时编码语言和声能[12]。结合语义信息可提高压缩效率并增强与大语

学信息,保留韵律和情感内容。我们的方法显著提升言模型集成时的语音理解能力。然而,随着离散标记

1

v了在各种应用中的语音表示保真度。经验评估证明了应用范围的扩大,保留声学信息变得更为重要,暴露

2其在语音编码、声音转换、情绪识别和多模态语言建出现有方法的局限性。在本文中,我们提出了一种新

0

8模中的有效性,并且无需额外训练。这种多功能性突型神经编解码框架,同时学习声学和语义信息。我们

6的方法利用HuBERT模型[13]进行语义特征提取,

0显了它作为推动AI驱动的语音处理工具的关键潜力。

7.并使用ECAPA模型[14]稳健处理声学特征。量化离

0IndexTerms—语音量化,语音编码,语音大语散标记可以直接应用于自回归模型(例如,大语言模

5言模型

2型),使其无缝集成到各种下游任务中而无需特定任务

:

v的微调。与现有的SpeechTokenizer相比,我们方法

i1.介绍

x的独特之处在于不仅包含了语音的语义信息,还将声

r

a人类大脑处理多样语音输入的非凡能力引发了一学信息作为先验知识。这种方法使模型能够学习更全

个引人注目的问题:我们能否创建能够匹敌这种多变面的语音组成部分表示。这种对语音组成部分增强的

性的人工智能系统,无需特定训练就能应对多种语音表示在4项下游任务中展示了我们提出的方法的有效

任务?性,并且其性能优于现有方法。

大型语言模型(LLM)的必威体育精装版进展使我们更接近我们的主要贡献如下:

实现这一目标,在各种语音理解和生成任务中表现出–统一的声学和语义信息框架:我们提出了一种

色。这一范式转变的核心在于有效语音标记化[1]作新颖的神经语音编解码器,通过集成稳健的声学

为连接原始语音信号与符号表示的基础[2]。应用和语义特征来共同学习声学和语义信息。

语音信号的关键挑战是高效地表达语义和声学信息。

–改进的语音编码效率和广泛的下游任务适用性:

SoundStream引入了一种使用残差向量量化(RVQ)

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档