基于自监督方法的到达方向估计的潜声映射-计算机科学-声学映射-声音定位系统.pdf

下载文档

0
0
约2.56万字
约 7页
2025-07-26 发布于中国
举报
版权申诉
保障服务

基于自监督方法的到达方向估计的潜声映射-计算机科学-声学映射-声音定位系统.pdf

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于自监督方法的到达方向估计的潜声映射

AdrianS.Roman,IranR.Roman,JuanP.Bello,

UniversityofSouthernCalifornia,LosAngeles,USAQueenMaryUniversityofLondon,London,UK

NewYorkUniversity,NewYork,USA

摘要—声学映射技术长期以来一直用于空间音频处理中的到达方向

估计（DoAE）。传统的波束成形方法虽然具有可解释性，但往往依赖于

计算密集且对声学变化敏感的迭代求解器。另一方面，最近的监督深度

学习方法提供了前馈速度和鲁棒性，但却需要大规模标注数据集并且缺

乏可解释性。尽管各自有优势，这两种方法在跨多样化声学设置和阵列

配置时都难以始终如一地泛化，限制了它们更广泛的应用。我们引入了

潜在声学映射（LAM）模型，这是一个将传统方法的可解释性和深度学

习方法的适应性和效率相结合的自我监督框架。LAM生成高分辨率声学

地图，适应不同的声学条件，并在不同麦克风阵列中高效运行。我们在图1:两个活跃语音声源产生的球形声学图（SAM）使用UpLAM（4通

LOCATA和STARSS基准上评估其鲁棒性。LAM实现了与现有监督方道）、LAM（32通道）和DeepWave（32通道）[2]。

本法相当或更优的定位性能。此外，我们展示了LAM的声学地图可以用作

监督模型的有效特征，进一步提升了DoAE准确性并凸显了其在推动自在空间中，该空间捕捉可解释的声学图中的局部化能量模式。受

译适应、高性能声音定位系统方面的发展潜力。到来自DeepWave[2]的图卷积和最近图像去噪技术[9],[10]的

中1.介绍启发，LAM进一步通过应用去噪卷积来优化声学图。LAM的自

1监督方法利用解码器通过阵列的转向矩阵[5]来重构麦克风通道

v声学映射技术长期以来在空间音频处理中扮演着核心角色，特别相关矩阵。与DeepWave不同，后者继承了其有监督训练标签的

6是在声音到达方向估计（DoAE）方面。也被称为声学成像，声限制，LAM直接从原始多通道数据中学习，消除了由迭代方法

0学映射提供了声源的空间可视化，便于在复杂环境中直观追踪声得出的地面真实值所施加的上限。此外，LAM拥有一个上采样

7音发射[1],[2]。模块，使其能够适应不同的麦克风配置，弥合低分辨率和高分辨

.传统声学映射方法为可解释的空间声音分析奠定了基础[1],率协方差矩阵之间的差距。

0[3],[4]。这些通常通过调整阵列的敏感性模式在感兴趣的方向上我们评估了LAM在DoAE数据集上的表现，证明了它能够

5将方向性声音强度场投影到空间表示中[4],[5]。虽然计算效率在各种声学条件下保持鲁棒性的同时，超越或匹配现有的监督方

2高，但由此产生的声学图像由于阵列大小和声音波长施加的衍射1

:法。我们的主要贡献包括：

v限制而具有较差的角度分辨率[2],[6]。较新的压缩感知方法承诺

i拉姆：一种从麦克风阵列录音生成高分辨率声学图的自监督

x提供更高的保真度[2]，但由于依赖迭代求解器，它们在计算上是

r模型。

a不可行的[6],[7]。

展示了LA

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于自监督方法的到达方向估计的潜声映射-计算机科学-声学映射-声音定位系统.pdf