- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
一种轻量级且鲁棒的盲宽带至全带扩展语音的方法
JanBüthe,Jean-MarcValin
XFoundation
摘要—减少语音带宽是资源受限环境中的常见做法,如低在这篇论文中,我们试图通过结合基于数据驱动的
带宽语音传输或低复杂度声码器。我们提出了一种轻量级且鲁DNN方法的高带宽建模能力和基于DSP的BWE方法
棒的方法来扩展宽带语音信号的带宽,该方法受到语音编码上的简单性和低复杂度来克服这一问题。该方法受到经典时
下文中开发的经典方法启发。所得模型仅有370K参数和
域带宽扩展的启发,在其中将非线性函数应用或频谱折叠
140MFLOPS(或70MMACS)的复杂度。使用10ms的
帧长以及仅0.27ms的预览,该模型非常适合与常见的宽带语等带宽扩展操作应用于上采样信号,并与随时间变化的频
音编解码器一起使用。我们通过将其与OpusSILK语音编解码谱整形滤波器结合。所得到算法的信号处理部分仅包含经
器(1.5版本)配对评估了模型的鲁棒性,并在P.808DCR听力典的DSP,即:固定非线性映射、固定和随时间变化的线
测试中验证它显著提高了从6到12kb/s的质量。我们还展示性滤波以及随时间变化的样本加权。这些随时间变化的滤
了Opus1.5在9kb/s下与所提出的带宽扩展一起使用达到了
本波器和样本权重又由一个小型DNN进行调整,该DNN控
3GPPEVS在9.6kb/s和Opus1.4在18kb/s的质量水平,
译表明盲带宽扩展可以达到经典引导带宽扩展的质量,从而提供了制生成的高带信号的内容和形状。所得到模型使用回归与
中一种向后兼容的质量改进方式。对抗损失的混合进行训练。它有370K个参数,并且计
4算复杂度为140MFLOPS(或70MMACS),使其适用
v1.介绍于即使在较旧的智能手机设备上也能使用。此外,由于它
2
9是围绕低延迟上采样器构建的,因此仅需额外0.27ms的
3限制语音带宽是一种处理资源受限情况的常见技术。最显前瞻时间以及可能与宽频语音生成系统共享的10ms的帧
1著的例子是实时通信中的语音编码,通常使用窄带编解码
1延时。
.器(例如G.711[1])或宽带编解码器(例如AMR-WB[2],
2为了测试模型的鲁棒性,我们将其与Opus编解码器
1OpusSILK[3])。第二个例子是复杂度受限环境中的神经1
4(1.5版)结合,并在P.808听音测试中确认,虽然BWE
声码器(例如LPCNet[4]),它被用于许多应用,如文本到
2模型仅使用清晰语音进行训练,但它为所有测试比特率提
:语音合成或语音增强。
v供了持续改进。此外,我们在混合编码模式下包含了超宽
i虽然带宽降低对于节约资源是有效的,并且(在大多
x带编解码器EVS[15]在9.6kb/s和Opus1.4在18kb/s,
r数情况下)保持了语音可懂度,但它确实会降级收听体验
a
您可能关注的文档
- 无损量子计算通过减少量子比特开销以实现高效的算术运算-计算机科学-机器学习-量子算术-量子哈密顿计算.pdf
- DiffGradCAM: 一种抵抗对抗训练的通用类激活图方法-计算机科学-深度神经网络-可解释性-类激活映射.pdf
- SpecMaskFoley: 通过 ControlNet 引导预训练的频谱掩码生成变换器实现同步视频到音频的合成-计算机科学-音频生成-视频生成.pdf
- 离散时间双层遗忘 RLS 识别在有限激励下的应用-计算机科学-机器学习-自适应系统-参数识别.pdf
- 动手操作:从连续序列中分割单个符号-计算机科学-连续手语分割-机器学习.pdf
- 什么是通用人工智能?-计算机科学-人工通用智能.pdf
- 那是你的最终答案?测试时间缩放改进选择性问答-计算机科学-大语言模型-模型推理.pdf
- 石鱼:支持海洋机器人中的机器学习研究-计算机科学-人工智能-海洋机器人.pdf
- 提示调优强盗:实现高效的多任务离线 RL 的少样本泛化能力-计算机科学-强化学习-大型预训练变换模型-人工智能.pdf
- 人类变异性与机器一致性:对人类和大型语言模型生成文本的语用分析-计算机科学-大语言模型-自然语言生成.pdf
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)