- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PREPRINT1
HiFi-Stream:基于生成对抗网络的流式语音增强
EkaterinaDmitrieva,andMaksimKaledin.
摘要—语音增强技术已成为移动设备和语音软件的核心技II.相关工作
术。然而,现代深度学习解决方案通常需要大量的计算资源,这
SE和语音分离方法通常可以分为时频(TF)[2,6,12]
使得它们在低资源设备上的应用颇具挑战性。我们提出了HiFi-
Stream,这是最近发布的HiFi++模型的优化版本。我们的实和时域(TD)[3,10,20]模型。尽管对时域模型的兴趣日益
验表明,尽管HiFi-Stream的大小和计算复杂度有所改进,但增加,但它们仍然非常复杂,至少包含数百万个参数[10]。
它仍然保留了原模型的大部分质量,使其成为可用的最小且最快研究表明,TF方法优于TD方法,因为幅度频谱图具有
的模型之一。该模型在流式处理设置下进行了评估,并展示了其很强的表现力,并且可以非常高效地进行处理[2,6]。
相较于现代基线的优越性能。
流处理呈现了几项特定的约束条件[23]。首先是计算
IndexTerms—音频降噪,音频处理,生成对抗网络,语音复杂性,反映在参数数量和处理时间上。其次是因果关系:
增强,流式音频处理。
本模型仅限于使用有限的上下文。因此,研究人员专注于构
译建基于transformer架构的状态-of-the-art解决方案的流
中I.介绍感知版本[8]。最近的研究表明,基于变压器的解决方案可
语音增强(SE)技术通常用作语音下游任务如语音识以在低资源设置中实现,但需要在注意力机制上投入相当
2
v别[12,21]的预处理工具。SE的主要目标是去除实际录音大的努力[23]。
1环境中产生的噪声和混响。在SE领域,最先进的深度学SEGAN提出的问题后来发展成了HiFi-GAN解决方
4
1习(DL)方法表明,DL能够应对SE和源分离问题中的案[11][16,17]。建议将模型训练和设计为GAN,其中生成
7
1非常困难的音频条件。一般来说,DL模型需要强大的计算器预测干净的波形。在HiFi++中对此进行了回顾,并采
3.单元,这些单元不太可能被安装在移动设备或可穿戴设备用了更结构化的设计[1]。尽管模型复杂度大幅降低,该模
0中。最近,研究工作开始集中于构建更适用于低资源应用型仍达到了基线结果。后来又提出了几个规模相同的其他
5
2的语音处理任务架构[23]。解决方案[9,15,24]。在[1],[15]中,主要目标是减小模型
:
v在我们的工作中,我们提出了HiFi-Stream模型,这大小,但没有解决计算复杂性问题。我们的目标是也改进
i
x是HiFi++[1]的两个优化版本,引入了结构和技术上的修SE的计算复杂度,我们在这一点上改进了[1,15]的结果,
r改。实验设置、管道和模型配置可以在github仓库中找到:请参见图3。
a
/KVDmitrieva/source_sep_hifi。
1)数据集在离线设置中的VCTK[19]实验表明,所提出III.方法论
的模型与原始模型相比,在性能上没有明显下降。语音增强问题是从其受损表示
2)高保真流模型的参数减少了至少近40%,MACs减(1
您可能关注的文档
- 通过中心感知随机游走的动态图嵌入-计算机科学-机器学习-动态图-图嵌入-算法.pdf
- 利用 SENTINEL-2 卫星图像监测消化液在农业作物上的应用-计算机科学-机器学习-农业应用.pdf
- 利用 SENTINEL-2 和 PLANETSCOPE 数据映射果园中的除草管理方法-计算机科学-机器学习-杂草管理-农业应用.pdf
- 联合行人和车辆交通优化在城市环境中使用强化学习-计算机科学-强化学习-交通信号控制.pdf
- 面向 O-RAN 移动性管理的图神经网络:一种链接预测方法-计算机科学-机器学习-图神经网络-链路预测.pdf
- 基于变换器的辅助损失用于跨年龄变化的人脸识别-计算机科学-机器学习-人脸识别-神经网络.pdf
- 量子计算启发的绘画:重新诠释经典杰作-计算机科学-量子计算-算法.pdf
- LLM 作为代码生成器在敏捷模型驱动开发中的应用-计算机科学-机器学习-模型驱动开发-代码生成.pdf
- 2025年共同成长共筑未来班会.pptx
- 中小微企业融资新方向:2025年供应链金融创新实践案例分析.docx
- 中小微企业供应链金融创新模式:2025年供应链金融与中小企业金融服务报告.docx
- 中小微企业供应链金融创新模式:2025年供应链金融与中小企业融资渠道创新报告.docx
- 中小微企业供应链金融创新模式:2025年供应链金融与中小企业融资政策建议报告.docx
- 中小微企业供应链金融创新模式:2025年供应链金融与中小企业融资渠道拓展与创新报告.docx
- 2025年共同荣誉分享成果班会.pptx
- 中小微企业供应链金融创新模式探索报告2025:融资困境突破.docx
- 中小微企业供应链金融创新模式探索报告2025:融资困境与解决方案.docx
- 中小微企业供应链金融创新模式与风险管理策略报告.docx
- 基础医学模拟考试题+参考答案.docx
- 中小微企业融资困境突破:2025年供应链金融创新实践研究报告.docx
文档评论(0)