- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
自回归语音增强通过
声学标记
LucaDellaLibera,CemSubakan,MircoRavanelli
ConcordiaUniversity,Mila-QuebecAIInstitute,UniversitéLaval
luca.dellalibera@mail.concordia.ca,cem.subakan@ift.ulaval.ca,mirco.ravanelli@concordia.ca
摘要—在语音处理流水线中,提高现实世界录音的质量和E[18]、AudioGen[19]、MusicGen[20]、SpeechGPT[21]、
可懂度至关重要。虽然监督回归是语音增强的主要方法,但音频SpiRit-LM[22]、NaturalSpeech3[23]和CLaM-TTS
标记化作为与其它模态平滑集成的有前景替代方案正在兴起。然[24]模型所示。语音标记可以大致分为两类:1)语义,
而,使用离散表示进行语音增强的研究仍然有限。以往的工作主
通常通过将k-means聚类应用于大型预训练的自监督
要集中在语义标记上,这些标记倾向于丢弃关键的声学细节如说
本话人身份。此外,这些研究通常采用非自回归模型,假设输出条语音编码器[25]–[27]获得,并捕获语言细节,使其适用
译件独立并忽略了自回归建模可能带来的改进。为了解决这些问于语音识别和口语理解等任务[28],[29];2)声学[23],
中题,我们:1)对语音增强中声学标记的表现进行全面研究,包[30]–[35],通常通过将残差向量量化[36],[37]应用于音
1括比特率和噪声强度的影响;2)引入一种基于转换器的新型自频自编码器来获得,并旨在保留所有信息,使其适用
v回归架构,专门为此任务设计。在VoiceBank和Libri1Mix于多说话人文本到语音和说话人验证等任务。一方面,
5
2数据集上的实验表明,声学标记在保持说话人身份方面优于语义k-means离散化过程往往会导致重要声学细节的丢失,
8标记,并且我们的自回归方法可以进一步提高性能。然而,我们
2观察到离散表示仍然不及连续表示,这突显了该领域需要进一步如说话人身份[38]。相比之下,声学标记保留了更丰富
1.研究的需求。的音频信息,但以更高的比特率为代价,导致序列较
7
0IndexTerms—语音增强,音频标记,语言模型。长。一个有前景的方向是开发混合型tokens[39],[40],
5旨在平衡这两种方法的优势。
2
:I.介绍尽管音频标记化已被应用于各种任务,但关于其在
v
i语音增强旨在通过去除现实生活中录音中常见的语音增强中的应用研究仍有限。大多数研究[41],[42]仅
x
r噪声和混响来提高语音信号的质量。近年来,在这一领专注于语义标记,忽略了更适合保留说话人身份的声学
a
域取得了显著的进展。虽然已经提出了无监督[1]、半标记的潜力。虽然[43]包含了对声学标记的评估,但它
监督[2],[3]和基于强化学习的方法[4],[5]来解决语依赖于简单的基线方法,只使用了一个数据集,并且缺
音增强问题,但迄今为止占主导地位的方法是监督回乏对噪声强度影响的分析。此外,所有这些工作都假设
归。在这个框架中,连续语音特征作为输入/输出,并使了条件独立输出的情况,忽视了自回归建模可能带来的
用重建损失如L1和L2或基于感知的度量如PESQ[6]改进。在本研究中,我们旨在通过以下贡献来弥补这些
和S
您可能关注的文档
- SEMT: 静态扩展网格转换器网络架构用于遥感图像字幕生成-计算机科学-深度学习-视觉语言-遥感图像-图像字幕生成.pdf
- 量子增强的基于 LSTM 预测信号的强化学习在金融科技交易决策优化中的应用-计算机科学-量子强化学习-金融科技优化-量子神经网络.pdf
- 远网:具有增强语义对齐和自适应调和的多阶段融合网络用于组合图像检索-计算机科学-组合图像检索-视觉语言.pdf
- MCoT-RE: 多方面推理链和重排序用于无训练零样本合成图像检索-计算机科学-大语言模型-计算机视觉-组合图像检索.pdf
- 基础问题生成结合问题嵌入用于视频问答-计算机科学-大语言模型-时空信息-视频问答-多模态.pdf
- 大型语言模型的符号音乐内部感知-计算机科学-大语言模型-神经网络-符号音乐生成.pdf
- 2024年云南省施甸县烟草公开招聘工作人员试题带答案详解.docx
- 2024年四川省新龙县烟草公开招聘工作人员试题带答案详解.docx
- 2023年恒温试验设备相关项目运行指导方案.pdf
- 2024年陕西省蓝田县烟草公开招聘工作人员试题带答案详解.docx
- 2024年四川省盐亭县烟草公开招聘工作人员试题带答案详解.docx
- 2024年陕西省陇县烟草公开招聘工作人员试题带答案详解.docx
- 2024年四川省盐源县烟草公开招聘工作人员试题带答案详解.docx
- 2024年陕西省洛川县烟草公开招聘工作人员试题带答案详解.docx
- 2024年四川省蓬溪县烟草公开招聘工作人员试题带答案详解.docx
- 2024年四川省仪陇县烟草公开招聘工作人员试题带答案详解.docx
- 南华大爆破工程讲义第9章 拆除爆破.doc
- 2024年四川省宜宾县烟草公开招聘工作人员试题带答案详解.docx
- 2024年陕西省眉县烟草公开招聘工作人员试题带答案详解.docx
- 2024年陕西省略阳县烟草公开招聘工作人员试题带答案详解.docx
文档评论(0)