- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于自监督方法的到达方向估计的潜声映射
AdrianS.Roman,IranR.Roman,JuanP.Bello,
UniversityofSouthernCalifornia,LosAngeles,USAQueenMaryUniversityofLondon,London,UK
NewYorkUniversity,NewYork,USA
摘要—声学映射技术长期以来一直用于空间音频处理中的到达方向
估计(DoAE)。传统的波束成形方法虽然具有可解释性,但往往依赖于
计算密集且对声学变化敏感的迭代求解器。另一方面,最近的监督深度
学习方法提供了前馈速度和鲁棒性,但却需要大规模标注数据集并且缺
乏可解释性。尽管各自有优势,这两种方法在跨多样化声学设置和阵列
配置时都难以始终如一地泛化,限制了它们更广泛的应用。我们引入了
潜在声学映射(LAM)模型,这是一个将传统方法的可解释性和深度学
习方法的适应性和效率相结合的自我监督框架。LAM生成高分辨率声学
地图,适应不同的声学条件,并在不同麦克风阵列中高效运行。我们在图1:两个活跃语音声源产生的球形声学图(SAM)使用UpLAM(4通
LOCATA和STARSS基准上评估其鲁棒性。LAM实现了与现有监督方道)、LAM(32通道)和DeepWave(32通道)[2]。
本法相当或更优的定位性能。此外,我们展示了LAM的声学地图可以用作
监督模型的有效特征,进一步提升了DoAE准确性并凸显了其在推动自在空间中,该空间捕捉可解释的声学图中的局部化能量模式。受
译适应、高性能声音定位系统方面的发展潜力。到来自DeepWave[2]的图卷积和最近图像去噪技术[9],[10]的
中1.介绍启发,LAM进一步通过应用去噪卷积来优化声学图。LAM的自
1监督方法利用解码器通过阵列的转向矩阵[5]来重构麦克风通道
v声学映射技术长期以来在空间音频处理中扮演着核心角色,特别相关矩阵。与DeepWave不同,后者继承了其有监督训练标签的
6是在声音到达方向估计(DoAE)方面。也被称为声学成像,声限制,LAM直接从原始多通道数据中学习,消除了由迭代方法
6
0学映射提供了声源的空间可视化,便于在复杂环境中直观追踪声得出的地面真实值所施加的上限。此外,LAM拥有一个上采样
7音发射[1],[2]。模块,使其能够适应不同的麦克风配置,弥合低分辨率和高分辨
0
.传统声学映射方法为可解释的空间声音分析奠定了基础[1],率协方差矩阵之间的差距。
7
0[3],[4]。这些通常通过调整阵列的敏感性模式在感兴趣的方向上我们评估了LAM在DoAE数据集上的表现,证明了它能够
5将方向性声音强度场投影到空间表示中[4],[5]。虽然计算效率在各种声学条件下保持鲁棒性的同时,超越或匹配现有的监督方
2高,但由此产生的声学图像由于阵列大小和声音波长施加的衍射1
:法。我们的主要贡献包括:
v限制而具有较差的角度分辨率[2],[6]。较新的压缩感知方法承诺
i拉姆:一种从麦克风阵列录音生成高分辨率声学图的自监督
x提供更高的保真度[2],但由于依赖迭代求解器,它们在计算上是
r模型。
a不可行的[6],[7]。
展示了LA
您可能关注的文档
- GMLM:连接图神经网络和语言模型以实现异质节点分类-计算机科学-预训练语言模型-图神经网络.pdf
- 四巧板是可避免的 4 种配置-计算机科学-机器学习-词组组合数学-算法.pdf
- 基于嵌入的方法进行超党派新闻检测-计算机科学-大语言模型.pdf
- 通过连续 CRF 对 去噪最近邻图以增强视觉重新排名-计算机科学-视觉检索-最近邻有哪些信誉好的足球投注网站-算法.pdf
- 重大损失的责任与保险:核能先例及对人工智能的启示-计算机科学-资源分配-风险管理.pdf
- 保障人工智能带来的不可保风险:政府作为最后的保险人-计算机科学-人工智能-风险定价.pdf
- 基于图的多智能体课程学习复杂性度量:合作协调环境中的任务排序验证方法-计算机科学-多智能体强化学习-多机器人协调.pdf
- 5C 提示合同:一个极简主义、创意友好、令牌高效的设计框 架,适用于个人和中小企业 LLM 使用-计算机科学-大语言模型-提示工程-人 工智能交互.pdf
- 边缘的自监督学习:标注的成本-计算机科学-可持续人工智能-表示学习-边缘计算.pdf
- 基于 OCR 的发票表格提取管道的设计与实现-计算机科学-自动化发票数据抽取.pdf
最近下载
- 2025年基层全科医生能力提升题库答案-华医网项目学习.docx VIP
- 《“1+X”无人机摄影测量》课件——项目三 像控点采集.pptx VIP
- 中医英语入门-学堂在线网课答案修改版.doc VIP
- 健康照护师练习试题及答案.docx
- 总公司与分公司的协议书.docx
- 一例脑梗死合并消化道出血的个案护理(1) PPT课件.pptx VIP
- 股东无息借款协议通用7篇.docx VIP
- 基于BIM技术降低机电管线综合布置碰撞率.docx VIP
- 《“1+X”无人机摄影测量》课件——项目六 数字正射影像图.pptx VIP
- 2023年江苏省健康照护行业职业技能竞赛考试复习题库-下(判断题部分).pdf VIP
文档评论(0)