一种轻量级且鲁棒的盲宽带至全带扩展语音的方法-计算机科学-低带宽语音传输-算法.pdf

一种轻量级且鲁棒的盲宽带至全带扩展语音的方法-计算机科学-低带宽语音传输-算法.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

一种轻量级且鲁棒的盲宽带至全带扩展语音的方法

JanBüthe,Jean-MarcValin

XFoundation

摘要—减少语音带宽是资源受限环境中的常见做法,如低在这篇论文中,我们试图通过结合基于数据驱动的

带宽语音传输或低复杂度声码器。我们提出了一种轻量级且鲁DNN方法的高带宽建模能力和基于DSP的BWE方法

棒的方法来扩展宽带语音信号的带宽,该方法受到语音编码上的简单性和低复杂度来克服这一问题。该方法受到经典时

下文中开发的经典方法启发。所得模型仅有370K参数和

域带宽扩展的启发,在其中将非线性函数应用或频谱折叠

140MFLOPS(或70MMACS)的复杂度。使用10ms的

帧长以及仅0.27ms的预览,该模型非常适合与常见的宽带语等带宽扩展操作应用于上采样信号,并与随时间变化的频

音编解码器一起使用。我们通过将其与OpusSILK语音编解码谱整形滤波器结合。所得到算法的信号处理部分仅包含经

器(1.5版本)配对评估了模型的鲁棒性,并在P.808DCR听力典的DSP,即:固定非线性映射、固定和随时间变化的线

测试中验证它显著提高了从6到12kb/s的质量。我们还展示性滤波以及随时间变化的样本加权。这些随时间变化的滤

了Opus1.5在9kb/s下与所提出的带宽扩展一起使用达到了

本波器和样本权重又由一个小型DNN进行调整,该DNN控

3GPPEVS在9.6kb/s和Opus1.4在18kb/s的质量水平,

译表明盲带宽扩展可以达到经典引导带宽扩展的质量,从而提供了制生成的高带信号的内容和形状。所得到模型使用回归与

中一种向后兼容的质量改进方式。对抗损失的混合进行训练。它有370K个参数,并且计

4算复杂度为140MFLOPS(或70MMACS),使其适用

v1.介绍于即使在较旧的智能手机设备上也能使用。此外,由于它

2

9是围绕低延迟上采样器构建的,因此仅需额外0.27ms的

3限制语音带宽是一种处理资源受限情况的常见技术。最显前瞻时间以及可能与宽频语音生成系统共享的10ms的帧

1著的例子是实时通信中的语音编码,通常使用窄带编解码

1延时。

.器(例如G.711[1])或宽带编解码器(例如AMR-WB[2],

2为了测试模型的鲁棒性,我们将其与Opus编解码器

1OpusSILK[3])。第二个例子是复杂度受限环境中的神经1

4(1.5版)结合,并在P.808听音测试中确认,虽然BWE

声码器(例如LPCNet[4]),它被用于许多应用,如文本到

2模型仅使用清晰语音进行训练,但它为所有测试比特率提

:语音合成或语音增强。

v供了持续改进。此外,我们在混合编码模式下包含了超宽

i虽然带宽降低对于节约资源是有效的,并且(在大多

x带编解码器EVS[15]在9.6kb/s和Opus1.4在18kb/s,

r数情况下)保持了语音可懂度,但它确实会降级收听体验

a

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档