用于多语种对话中说话人分离与语音识别的统一语音 LLM-计算机科学-大语言模型-自动语音识别.pdfVIP

用于多语种对话中说话人分离与语音识别的统一语音 LLM-计算机科学-大语言模型-自动语音识别.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

用于多语种对话中说话人分离与语音识别的统一语音LLM

PhurichSaengthong,BoonnithiJiaramaneepinit,ShengLi,

ManabuOkumura,TakahiroShinozaki

InstituteofScienceTokyo

www.ts.ip.titech.ac.jp,www.lr.first.iir.isct.ac.jp

Abstract2.端到端语音LLM用于联合说话人分离

语音大型语言模型(SpeechLLMs)近年来已成为一个重要和ASR(任务II)

的范式,将传统LLMs的能力扩展到自动语音识别(ASR)在任务II中,基线系统[2]分阶段执行说话人分离和

和口语对话建模等语音任务中。然而,由于缺乏能够捕捉识别:它首先应用语音活动检测(VAD)和说话人聚类来

自然对话现象的数据,在现实世界的多语言对话中的有效分割音频,然后使用基于LLM的ASR模型独立转录每个

性仍然受到限制。为了解决这一问题,MLC-SLM挑战赛片段[1]。这种分离通常缺乏足够的对话上下文,难以解决

提供了一个多语言会话语料库,并在两个任务上评估模型:模糊的说话人过渡或保持一致的说话人分配,尤其是在多

带有黄金分割的ASR(任务一)和无黄金信息的联合说话语言、重叠或轮流发言的情况下。

人分离与识别(任务二)。本文重点讨论任务二,并提出为了解决这些限制,我们提出了一种端到端的方法,用

一个统一的语音LLM,在端到端的方式中同时进行说话于结合说话者分割和自动语音识别(DASR)使用一个语音

本人分离和ASR。通过重新格式化训练数据和修改推理过大型语言模型(SpeechLLM)。我们的方法结合了局部滑动

程,我们的模型解决了预分割音频中的固有模糊性,并在(非重叠)推理窗口与来自先前说话者轮次的基于提示的上

译tcpWER/tcpCER上实现了54.87%相对改进,整体排名下文,共同预测谁在说话以及正在说什么内容(图1)。该模

第八,尽管使用了一个较小的LLM骨干网络。我们还报型采用本地分割和识别格式进行训练,使其能够学习结构

中告了使用微调后的语音LLM进行任务一的结果。化的说话者-文本对齐。在推理时,它通过更新的说话者上

1索引术语:端到端说话人分割与语音识别,语音大语言模下文和预测的说话者提示迭代处理局部窗口中的对话以保

v型,多语言对话式语音识别持连续性。虽然与之前的相关端到端DASR模型[3,4]有

71.介绍关,但我们的工作独特地采用了LLM作为具备分割意识

2大型语言模型(LLMs)最近已扩展到诸如自动语音识转录的核心骨干。

9别(ASR)和口语对话建模等语音任务。然而,进展仍然2.1.语音大语言模型

2受到现实世界对话数据稀缺的限制——尤其是在多语种环

0.境下——其中复杂的模式如说话人重叠、打断以及多样化我们语音大语言模型的架构与基准系统[2]非常相似,

7

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档