Qwen 与 Gemma 结合使用 Whisper 的比较研究:多语言语音 LLM 系 统中的对比分析-计算机科学-人工智能-多语言语音识别-语音语言模型.pdfVIP

Qwen 与 Gemma 结合使用 Whisper 的比较研究:多语言语音 LLM 系 统中的对比分析-计算机科学-人工智能-多语言语音识别-语音语言模型.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Qwen与Gemma结合使用Whisper的比较研究:多语言语音LLM系

统中的对比分析

TuanNguyen,Long-VuHoang,Huy-DatTran

InstituteforInfocommResearch(IR),ASTAR,Singapore

SoICT,HanoiUniversityofScienceandTechnology,Vietnam

{tuan_nguyen,hdtran}@.sg,longvu200502@

Abstract通常包括一个语音编码器、一个投影模块来对齐模式

本文介绍了我们参加MLC-SLM挑战赛2025的系统,以及一个用于解码的语言模型。值得注意的方法包括

重点在于多语言语音识别和使用大语言模型(LLMs)在时间上压缩语音表示、引入模态对齐机制以及部分

的语言建模。我们的方法结合了微调后的Whisper-微调LLMs以适应口语输入[4]。尽管有这些进展,设

large-v3编码器与高效的投影器架构以及各种解码器计有效的基于LLM的语音模型仍然非trivial,特别是

配置。我们采用三阶段训练方法,逐步优化编码器、投在面对现实世界的对话语音时——这种语音特征表现

影器和LLM组件。我们的系统实现了具有竞争力的性为不流利、说话者重叠和多样的轮流发言风格。此外,

能,在使用Gemma3-12B时私人测试平均WER/CER缺乏广泛的多语言对话语料库进一步复杂化了泛化性

结果为16.63%,而在仅使用Qwen2.5-7B作为解码器和鲁棒性。

1

语言模型时为18.6%。在我们提交的MLC-SLM挑战中,我们提出

索引术语:多语言语音识别,语音语言模型,Whisper,了一种简化的高效系统架构,该架构利用了预训练模

变压器架构型的优势,并且只需最少的任务特定工程。我们的系

统使用OpenAI的Whisper模型[7]作为语音编码

本1.介绍器,因为其具有强大的泛化能力和对多语言输入的鲁

棒性。对于语言建模组件,我们探索了Qwen2.5[8]和

译近年来,大型语言模型(LLMs)在自然语言处理Gemma3[9]。一个轻量级线性投影模块被训练以桥接

(NLP)应用中作为变革性工具涌现出来,包括机器翻语音和语言模式。通过这种简单而有效的设置,我们在

中译、问答、摘要生成和对话系统等领域[1,2,3]。它们多语言对话语音建模中展示了具有竞争力的表现,突

建模长距离依赖关系以及生成连贯且上下文丰富的语出了模块化设计和预训练组件相对于高度定制架构2

2言的能力使其成为研究和行业的基础。随着这些能力的优势。

v的不断进化,越来越多的研究工作转向利用LLMs进

6

9行与语音相

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档