针对任务的机器音频编码: 机器学习的潜在特征是该机器的代码-计算机科学-人工智能-神经音频编解码器.pdfVIP

针对任务的机器音频编码: 机器学习的潜在特征是该机器的代码-计算机科学-人工智能-神经音频编解码器.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

针对任务的机器音频编码:

机器学习的潜在特征是该机器的代码

AnastasiaKuznetsova,InseonJang,WootaekLim,MinjeKim

IndianaUniversity,Bloomington,IN,USA

ElectronicsandTelecommunicationsResearchInstitute,Daejeon,Korea

UniversityofIllinoisUrbana-Champaign,Champaign,IL,USA

摘要—神经音频编解码器通过量化算法显著影响了各种语音/音频率效率低下。相反,在机器音频编码(ACoM)范式下引入的[19],

任务。虽然高保真重构对于人类感知至关重要,但面向机器的音频编码可以进一步优化下游机器学习(ML)任务的代码。ACoM意味

(ACoM)则优先考虑高效压缩和下游任务性能,忽视感知细节。本文介

着采用通用编码方法,其中编码效率基于下游性能进行优化,关

绍了一种高效的ACoM方法,可以压缩并量化已训练好的语音/音频下

游模型中任意选定的中间特征表示。我们的方法采用特定任务损失指导注这些离散特征对机器的实用性,同时忽略其感知特性。ACoM

以及残差向量量化(RVQ)损失,提供了超低比特率(即小于200bps),遵循一套原则:a)代码必须在比特率和大小上有效;b)可以被

同时对下游模型性能几乎没有影响。生成的分词器可以适应各种比特率机器使用而不降低下游性能;c)需要为机器消费进行优化[19]。

本和模型大小以实现灵活部署。在自动语音识别和音频分类上的评估表明,向ACoM迈出的一步可以是一系列基础模型,这些模型可

通过适当的正则化,我们的方法展示了其有效性和更广泛任务及架构适

译以通过自监督学习被视为离散编码器,例如Wav2Vec2.0[20]、

用性的潜力。

中WavLM[21]或HuBERT[22]。它们主要集中在检索语音输入

11.介绍[23]的音素特征上。同时,更通用的基于SSL的编码器,例如

v音频编解码器因其多功能性一直是研究的活跃领域。编解码器的BEATs[14],也可以从一般音频中学习语义信息,改进声音分

1主要用途是信号压缩,同时尽量减少感知质量的损失以实现高效类任务。它们被设计为学习机器可用的功能而非音频重建,使其

0

7传输[1]–[6]。最近,神经音频编解码器[7]–[9]在促进各种生成模与ACoM范式保持一致。确实,前面提到的自编码器类型编解码

2型的成功方面发挥了作用,将固有的连续音频表示转换为离散标器也被证明可以学习对其他以语义驱动的任务有用的代码,例如

1

.记。各种与语音和音频相关的任务都受益于离散标记:语音语言SLMs[12],[24]。

7

0模型(SLMs)、文本到语音(TTS)[10]、语音转换(VC)[11]–[13]、同样,这些离散化方法往往侧重于准确性和质量,经常忽视

5自动语音识别(ASR)、音频分类(AC)[14]、语音增强(SE)[15]了复杂性和比特率冗余[16],[17],[25],[26]。此外,为了追求通

2

:等其他任务[16],[17]。用的万能分词器,下游任务通常在冻结的分词器上进行训练,导

v神经音频编码系统通常由三个部分组成:一个将输入音频转致与连续基准相比,各种任务中的性能下降[16]。

i

x换为紧凑(例如,低维)特征空间的编码器,一个将连续特征向在本文中,我们介绍了一种高

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档