一种轻量级且鲁棒的盲宽带至全带扩展语音的方法-计算机科学-低带宽语音传输-算法.pdf

下载文档

0
0
约2.07万字
约 6页
2025-07-28 发布于中国
举报
版权申诉
保障服务

一种轻量级且鲁棒的盲宽带至全带扩展语音的方法-计算机科学-低带宽语音传输-算法.pdf

1、本文档共6页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种轻量级且鲁棒的盲宽带至全带扩展语音的方法

JanBüthe,Jean-MarcValin

XFoundation

摘要—减少语音带宽是资源受限环境中的常见做法，如低在这篇论文中，我们试图通过结合基于数据驱动的

带宽语音传输或低复杂度声码器。我们提出了一种轻量级且鲁DNN方法的高带宽建模能力和基于DSP的BWE方法

棒的方法来扩展宽带语音信号的带宽，该方法受到语音编码上的简单性和低复杂度来克服这一问题。该方法受到经典时

下文中开发的经典方法启发。所得模型仅有370K参数和

域带宽扩展的启发，在其中将非线性函数应用或频谱折叠

140MFLOPS（或70MMACS）的复杂度。使用10ms的

帧长以及仅0.27ms的预览，该模型非常适合与常见的宽带语等带宽扩展操作应用于上采样信号，并与随时间变化的频

音编解码器一起使用。我们通过将其与OpusSILK语音编解码谱整形滤波器结合。所得到算法的信号处理部分仅包含经

器（1.5版本）配对评估了模型的鲁棒性，并在P.808DCR听力典的DSP，即：固定非线性映射、固定和随时间变化的线

测试中验证它显著提高了从6到12kb/s的质量。我们还展示性滤波以及随时间变化的样本加权。这些随时间变化的滤

了Opus1.5在9kb/s下与所提出的带宽扩展一起使用达到了

本波器和样本权重又由一个小型DNN进行调整，该DNN控

3GPPEVS在9.6kb/s和Opus1.4在18kb/s的质量水平，

译表明盲带宽扩展可以达到经典引导带宽扩展的质量，从而提供了制生成的高带信号的内容和形状。所得到模型使用回归与

中一种向后兼容的质量改进方式。对抗损失的混合进行训练。它有370K个参数，并且计

4算复杂度为140MFLOPS（或70MMACS），使其适用

v1.介绍于即使在较旧的智能手机设备上也能使用。此外，由于它

9是围绕低延迟上采样器构建的，因此仅需额外0.27ms的

3限制语音带宽是一种处理资源受限情况的常见技术。最显前瞻时间以及可能与宽频语音生成系统共享的10ms的帧

1著的例子是实时通信中的语音编码，通常使用窄带编解码

1延时。

.器（例如G.711[1]）或宽带编解码器（例如AMR-WB[2],

2为了测试模型的鲁棒性，我们将其与Opus编解码器

1OpusSILK[3]）。第二个例子是复杂度受限环境中的神经1

4（1.5版）结合，并在P.808听音测试中确认，虽然BWE

声码器（例如LPCNet[4]），它被用于许多应用，如文本到

2模型仅使用清晰语音进行训练，但它为所有测试比特率提

:语音合成或语音增强。

v供了持续改进。此外，我们在混合编码模式下包含了超宽

i虽然带宽降低对于节约资源是有效的，并且（在大多

x带编解码器EVS[15]在9.6kb/s和Opus1.4在18kb/s，

r数情况下）保持了语音可懂度，但它确实会降级收听体验

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

一种轻量级且鲁棒的盲宽带至全带扩展语音的方法-计算机科学-低带宽语音传输-算法.pdf