数据均衡的课程学习在音频问答中的应用-计算机科学-音频问答-强化学习-声学理解-自然语言处理.pdfVIP

数据均衡的课程学习在音频问答中的应用-计算机科学-音频问答-强化学习-声学理解-自然语言处理.pdf

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据均衡的课程学习在音频问答中的应用

GijsWijngaard,EliaFormisano,MicheleEsposito,MichelDumontier

MaastrichtUniversity

摘要—音频问答(AQA)要求模型理解声学内容并进行复杂2)统计数据分析平衡:统计阈值识别并移除过代表的

的推理。当前的模型在处理数据集不平衡和训练动态不稳定的问类别,从而平衡训练数据集。

题上存在困难。本研究结合了课程学习与统计数据分析平衡来解3)引导解码:正则表达式将生成约束为有效的多项选

决这些挑战。该方法使用语言模型标记问题难度,然后从简单到

择答案(A、B、C、D)。

复杂逐步训练。统计过滤移除了过度代表的音频类别,引导解码限

制输出为有效的多项选择格式。在DCASE2025训练集和五个额4)混合训练:该模型通过监督微调(SFT)进行训练以

外的公共数据集上的实验表明,数据整理将准确性提高了11.7%,提供稳定的初始化。接下来是通过基于奖励的学习来

超过了基线模型,在DCASE2025基准上达到了64.2%。进行组相对策略优化(GRPO)。

IndexTerms—音频问题回答,课程学习,数据平衡,强化学

六组数据集上的实验验证了该方法。数据质量比算法

本习,引导解码

译I.介绍复杂性更能决定性能。该方法在DCASE2025任务5:音

中频问答中实现了64.2%的准确率。

音频问答(AQA)代表了声学理解和自然语言处理交

1II.背景

v叉领域的一项基本挑战。与简单的声音分类不同,AQA要

5求模型理解复杂的声景,识别声音之间的时序关系,并生A.音频语言模型

1

8成对多样化问题的连贯答案[1],[2],[3]。早期的AQA模型大规模的音语言模型改变了音频理解。早期的方法将

6专注于二元任务或有限标签集[1],[4],而后来的模型则具音频编码器模型与语言模型解码器[7],[8]结合起来。在这

0

7.备了超出严格答案集的自然语言答案生成能力。某些任务里,语言模型的表现取决于它从音频编码器接收到的功能

0需要使用文本生成指标来评估模型输出,而其他任务则要的质量。Qwen2-Audio[9]和其他最近的模型通过统一的架

5求从提供的选项中选择正确答案,这使得答案可以与实际构解决了这个问题。该模型使用Whisper-large-v3编码器

2

:答案进行验证。和Qwen-7B语言模型处理语音、音频和环境声音的组合,

v

i音频语言建模面临训练数据多样性和质量有限的问题并在此工作中作为基础模型使用。

x

r[5]。许多模型使用重叠的数据集进行训练,这种冗余也在音频语言领域中的训练策略示例包括:从30秒到5分

a

基准测试中以数据污染的形式出现,导致数据集景观同质钟的时序进展,这使3B模型能够在更大架构中表现更佳

化。这限制了音频语言模型的泛化能力和鲁棒性。分析显[10]。先感知后理解可以提高理解能力[11]。多阶段思维允

示,音频数据集存在严重的类别不平衡问题。某些声音类许规划、描述、推理和总结[12]。

别表现出显著的过度表示。这导致模型在常见声音上表现

良好,但在罕见声学事件上失败。B.音频理解的训练策略

虽然传统的音频问答方法依赖于监督学习,最近的进课程学习是首先向语言模型展示可以被分类为简单

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档