HiFi-Stream: 基于生成对抗网络的流式语音增强-计算机科学-音频降噪-音频处理-生成对抗网络-语音增强-流式音频处理.pdf

HiFi-Stream: 基于生成对抗网络的流式语音增强-计算机科学-音频降噪-音频处理-生成对抗网络-语音增强-流式音频处理.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

PREPRINT1

HiFi-Stream:基于生成对抗网络的流式语音增强

EkaterinaDmitrieva,andMaksimKaledin.

摘要—语音增强技术已成为移动设备和语音软件的核心技II.相关工作

术。然而,现代深度学习解决方案通常需要大量的计算资源,这

SE和语音分离方法通常可以分为时频(TF)[2,6,12]

使得它们在低资源设备上的应用颇具挑战性。我们提出了HiFi-

Stream,这是最近发布的HiFi++模型的优化版本。我们的实和时域(TD)[3,10,20]模型。尽管对时域模型的兴趣日益

验表明,尽管HiFi-Stream的大小和计算复杂度有所改进,但增加,但它们仍然非常复杂,至少包含数百万个参数[10]。

它仍然保留了原模型的大部分质量,使其成为可用的最小且最快研究表明,TF方法优于TD方法,因为幅度频谱图具有

的模型之一。该模型在流式处理设置下进行了评估,并展示了其很强的表现力,并且可以非常高效地进行处理[2,6]。

相较于现代基线的优越性能。

流处理呈现了几项特定的约束条件[23]。首先是计算

IndexTerms—音频降噪,音频处理,生成对抗网络,语音复杂性,反映在参数数量和处理时间上。其次是因果关系:

增强,流式音频处理。

本模型仅限于使用有限的上下文。因此,研究人员专注于构

译建基于transformer架构的状态-of-the-art解决方案的流

中I.介绍感知版本[8]。最近的研究表明,基于变压器的解决方案可

语音增强(SE)技术通常用作语音下游任务如语音识以在低资源设置中实现,但需要在注意力机制上投入相当

2

v别[12,21]的预处理工具。SE的主要目标是去除实际录音大的努力[23]。

1环境中产生的噪声和混响。在SE领域,最先进的深度学SEGAN提出的问题后来发展成了HiFi-GAN解决方

4

1习(DL)方法表明,DL能够应对SE和源分离问题中的案[11][16,17]。建议将模型训练和设计为GAN,其中生成

7

1非常困难的音频条件。一般来说,DL模型需要强大的计算器预测干净的波形。在HiFi++中对此进行了回顾,并采

3.单元,这些单元不太可能被安装在移动设备或可穿戴设备用了更结构化的设计[1]。尽管模型复杂度大幅降低,该模

0中。最近,研究工作开始集中于构建更适用于低资源应用型仍达到了基线结果。后来又提出了几个规模相同的其他

5

2的语音处理任务架构[23]。解决方案[9,15,24]。在[1],[15]中,主要目标是减小模型

:

v在我们的工作中,我们提出了HiFi-Stream模型,这大小,但没有解决计算复杂性问题。我们的目标是也改进

i

x是HiFi++[1]的两个优化版本,引入了结构和技术上的修SE的计算复杂度,我们在这一点上改进了[1,15]的结果,

r改。实验设置、管道和模型配置可以在github仓库中找到:请参见图3。

a

/KVDmitrieva/source_sep_hifi。

1)数据集在离线设置中的VCTK[19]实验表明,所提出III.方法论

的模型与原始模型相比,在性能上没有明显下降。语音增强问题是从其受损表示

2)高保真流模型的参数减少了至少近40%,MACs减(1

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档