- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
OpenBEATs:一个完全开源的通用音频编码器
ShikharBharadwaj,SamueleCornell,KwangheeChoi,SatoruFukayama,
Hye-jinShim,SohamDeshmukh,ShinjiWatanabe
CarnegieMellonUniversity,USA
NationalInstituteofAdvancedIndustrialScienceandTechnology(AIST),Japan
sbharad2@
摘要—掩码标记预测作为一种强大的预训练目标,在语言、视觉和性能通常与其底层音频编码器[22]的质量密切相关,这强调了需
语音领域中已经崭露头角,提供了通过单一预训练任务统一这些不同模要健壮且通用的编码器。然而,当前文献缺乏一种普遍的音频编
态的潜力。然而,其在通用音频理解中的应用仍然较少被探索,BEATs
码器和标准化跨领域基准以评估泛化能力。为了解决这些限制,
是唯一一个值得注意的例子。由于缺乏开源预训练代码,BEATs的修改
非常有限。此外,BEATs仅在AudioSet上进行过训练,限制了它在更广我们提出了一种在多样化音频域上训练的统一编码器。我们的结
泛下游任务上的适用性。为了解决这些问题,我们提出了OpenBEATs,果验证了多领域预训练可以改善跨领域的泛化能力,并在多个数
这是一个通过多领域音频预训练扩展BEATs的开源框架。我们在六种据集上实现了最先进的性能。
类型的任务、二十五个数据集和三个音频域中进行了全面的评估,包括音频编码器的评估主要局限于在一组狭窄的通用数据集(如
本音频推理任务如音频问答、蕴涵和字幕生成等。OpenBEATs在六个生
AudioSet[23]和ESC-50[24])上的分类任务。更广泛的评估——
译物声学数据集、两个环境声音数据集以及五个推理数据集上实现了最先特别是在生物声学等专业领域——仍然未被充分探索或推给下游
进的性能,在参数量仅为其他模型四分之一的情况下表现更好。这些结
中果证明了多领域数据集和掩码标记预测任务在学习通用音频表示方面的用户处理。然而,随着ALMs的到来,音频编码器越来越多地用
1有效性。为了促进进一步的研究和可重复性,我们发布了所有预训练和于更复杂的语义任务,如音频字幕生成、音频问答和音频推理,
1
v评估代码、预先训练好的和微调后的检查点以及训练日志。这些任务涵盖了不同的领域。在此设置下,音频编码器不仅要包
9
21.介绍含音频信息,还要包含引导语言模型所需的必要语义信息。这一
1转变凸显了对音频表示进行全面评估的需要,这不仅包括传统的
4自监督学习(SSL)在广泛的音频处理任务中显示出巨大的潜力。
分类任务,还包括跨越生物声学、环境声音和音乐领域的开放性
1它使模型能够学习通用表示,这些表示可以有效地转移到各种下
.和语义丰富的任务。为此,我们通过一个脚本支持多个模型,并
7游应用上。基于SSL的音频编码器(AEs)的著名示例包括BEATs
0[1]、S
您可能关注的文档
- 使用大型语言模型自动解析无损评估轮廓图以评估桥梁状况-计算机科学-图像字幕生成-无损评估-桥梁维护和安全.pdf
- 多中心验证用于脊柱侧弯评估的深度学习模型-计算机科学-人工智能-深度学习-临床医疗.pdf
- 揭示性能差距:人类匿名化及其对视频异常检测影响的比较研究-计算机科学-计算机视觉-视频异常检测-隐私保护.pdf
- 轨道服务枢纽用模块化移动检测和维护机器人的设计-计算机科学-自主机器人-空间机器人-非破坏性测试.pdf
- 基础模型作为皮肤影像分类的类增量学习者-计算机科学-类增量学习-基础模型-皮肤图像分类.pdf
- Unit 3 Be a Nice Person Lesson 9 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 2 Be Good Friends Lesson 8 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 3 Be a Nice Person Lesson 10 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 3 Be a Nice Person Lesson 11 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 《倍的认识》教案-2025-2026学年北京版(2024)小学数学二年级上册.docx
- Unit 6 Get Close to Nauture Lesson 22 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 23 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 2025食品饮料行业AI转型白皮书-2025食品饮料行业数智化转型领先实践.pdf
- Unit 7 Be Together Lesson 24 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 25 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 26 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 2025年广州体育职业技术学院单招职业倾向性考试题库完美版.docx
- 软件公司员工考勤异常处理.doc
- 2025年土地登记代理人之土地登记相关法律知识题库500道及完整答案【有一套】.docx
- 2025年四平职业大学单招职业适应性考试题库含答案.docx
文档评论(0)