基于自监督方法的到达方向估计的潜声映射-计算机科学-声学映射-声音定位系统.pdf

基于自监督方法的到达方向估计的潜声映射-计算机科学-声学映射-声音定位系统.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于自监督方法的到达方向估计的潜声映射

AdrianS.Roman,IranR.Roman,JuanP.Bello,

UniversityofSouthernCalifornia,LosAngeles,USAQueenMaryUniversityofLondon,London,UK

NewYorkUniversity,NewYork,USA

摘要—声学映射技术长期以来一直用于空间音频处理中的到达方向

估计(DoAE)。传统的波束成形方法虽然具有可解释性,但往往依赖于

计算密集且对声学变化敏感的迭代求解器。另一方面,最近的监督深度

学习方法提供了前馈速度和鲁棒性,但却需要大规模标注数据集并且缺

乏可解释性。尽管各自有优势,这两种方法在跨多样化声学设置和阵列

配置时都难以始终如一地泛化,限制了它们更广泛的应用。我们引入了

潜在声学映射(LAM)模型,这是一个将传统方法的可解释性和深度学

习方法的适应性和效率相结合的自我监督框架。LAM生成高分辨率声学

地图,适应不同的声学条件,并在不同麦克风阵列中高效运行。我们在图1:两个活跃语音声源产生的球形声学图(SAM)使用UpLAM(4通

LOCATA和STARSS基准上评估其鲁棒性。LAM实现了与现有监督方道)、LAM(32通道)和DeepWave(32通道)[2]。

本法相当或更优的定位性能。此外,我们展示了LAM的声学地图可以用作

监督模型的有效特征,进一步提升了DoAE准确性并凸显了其在推动自在空间中,该空间捕捉可解释的声学图中的局部化能量模式。受

译适应、高性能声音定位系统方面的发展潜力。到来自DeepWave[2]的图卷积和最近图像去噪技术[9],[10]的

中1.介绍启发,LAM进一步通过应用去噪卷积来优化声学图。LAM的自

1监督方法利用解码器通过阵列的转向矩阵[5]来重构麦克风通道

v声学映射技术长期以来在空间音频处理中扮演着核心角色,特别相关矩阵。与DeepWave不同,后者继承了其有监督训练标签的

6是在声音到达方向估计(DoAE)方面。也被称为声学成像,声限制,LAM直接从原始多通道数据中学习,消除了由迭代方法

6

0学映射提供了声源的空间可视化,便于在复杂环境中直观追踪声得出的地面真实值所施加的上限。此外,LAM拥有一个上采样

7音发射[1],[2]。模块,使其能够适应不同的麦克风配置,弥合低分辨率和高分辨

0

.传统声学映射方法为可解释的空间声音分析奠定了基础[1],率协方差矩阵之间的差距。

7

0[3],[4]。这些通常通过调整阵列的敏感性模式在感兴趣的方向上我们评估了LAM在DoAE数据集上的表现,证明了它能够

5将方向性声音强度场投影到空间表示中[4],[5]。虽然计算效率在各种声学条件下保持鲁棒性的同时,超越或匹配现有的监督方

2高,但由此产生的声学图像由于阵列大小和声音波长施加的衍射1

:法。我们的主要贡献包括:

v限制而具有较差的角度分辨率[2],[6]。较新的压缩感知方法承诺

i拉姆:一种从麦克风阵列录音生成高分辨率声学图的自监督

x提供更高的保真度[2],但由于依赖迭代求解器,它们在计算上是

r模型。

a不可行的[6],[7]。

展示了LA

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档