- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
一语定级万物
NhanPhan,AnushaPorwal,YaroslavGetman,EkaterinaVoskoboinik,TamásGrósz,Mikko
Kurimo
DepartmentofInformationandCommunicationsEngineering,AaltoUniversity,Finland
{firstname.lastname}@aalto.fi
Abstract
我们提出了一种高效的端到端方法,用于整体自动
口语评估(ASA)的多部分第二语言测试,该方法
是为2025年SpeakImprove挑战赛开发的。我
们系统的最大创新在于能够使用单一的Whisper-
本small编码器处理所有四个口语反应,通过轻量级
译聚合器结合所有信息,并预测最终分数。这种架构
中消除了转录和每部分模型的需求,减少了推理时
间,使ASA在大规模计算机辅助语言学习系统中
1
v变得实用。我们的系统实现了0.384的均方根误差
8(RMSE),优于基于文本的基础线(0.44),同时最图1:我们的模型架构概述。
1
9多使用了168M参数(约Whisper-small的70%)。
7
1此外,我们提出了一种数据采样策略,允许模型仅
.早期的ASA系统通过手动设计的声学或文本
7在语料库中的44.8%发言者上进行训练,并仍达到
00.383的RMSE,展示了对不平衡类别改进的表现特征预测整体熟练度[6,7]。由于这些特征是手工
5制作的,它们的实用性很大程度上取决于开发人
2和强大的数据效率。
:员选择包含什么内容,并且可能会忽略数据驱动
vIndexTerms:自动语音评估,计算机辅助语言
i方法可能捕捉到的线索。因此,最近的研究探索了
x学习,二语水平,Whisper
r从音频信号中自动提取特征的使用,使ASA系统
a
能够作为端到端评分器运行,仅将学习者的语音
1.介绍
作为输入[8–12]。虽然这些方法可以超越基于手工
口语是交际能力的核心维度,因此对于任何设计特征的模型,但它们也带来了与计算复杂性
语言资格认证来说都必须对其进行评估以保持其相关的新挑战。大多数端到端模型被设计为预测
有效性[1]。然而,对口头反应的人工评分既耗时单个问题或任务的整体分数[8–10];对于多部分测
又昂贵。此外,由于疲劳[2]、培训不足[3]或对非试,通常需要多个模型或模型组合[11,12]。
母语口语口音的有限接触[4],评分者的一致性可多个模型计算多部分口语测试的整体分数的
能会受到损害。自动口语评估(ASA)可以通过提需求限制了现有ASA系统的实用性,体现在速度
供可扩展且客观的分数来缓解这些缺点,同时大和计算成本上。虽然每个模型的推理时间可能相
幅降低成本。在计算机辅助语言学习(CALL)应似,但顺序加载它们会影响延迟,而并行运行则会
您可能关注的文档
- 具有共享权重和注意力机制的 RESNET-CONFORMER 网络用于声音事件定位、检测和距离估计-计算机科学-声事件定位与检测-注意力机制-机器学习.pdf
- SmartAPS:用于运营管理的工具增强型 LLM-计算机科学-机器学习-人工智能-运筹学-人机交互.pdf
- 分层扩散框架用于伪健康脑 MRI 修复以增强三维一致性-计算机科学-机器学习-扩散模型-健康图像修复.pdf
- 大型云机器人操作的联邦学习:机遇与挑战-计算机科学-机器学习-云计算机器人.pdf
- 多模态循环集成用于预测对自然电影的脑反应-计算机科学-机器学习-算法.pdf
- VeriMinder:缓解 NL2SQL 中的分析漏洞-计算机科学-机器学习-大语言模型-自然语言处理.pdf
- I2I - STRADA – 通过结构化推理代理从信息到洞见的数据分析-计算机科学-多智能体-代理系统.pdf
- 基于安全强化学习的自动发电控制-计算机科学-安全强化学习-自适应通用控制.pdf
- 与物交谈:将大语言模型集成到物联网网络中-计算机科学-大语言模型-物联网-边缘计算.pdf
- ARCADE:一种混合 AI 环境下的 6G 网络 RAN 诊断方法论-计算机科学-人工智能-6G 网络.pdf
- 通过基于生成式人工智能的图像合成实现基于人工智能的皮肤病变分类器的公平性评估优化-计算机科学-深度学习-可信赖的人工智能-医疗影像.pdf
- TIPPY 的技术实现:药物发现实验室自动化的多代理架构和系统设计-计算机科学-AI 代理- 多智能体系统-微服务.pdf
文档评论(0)