- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于ASR的说话人角色分离和基于分离的ASR解码
ArindamGhosh,MarkFuhs,BongjunKim,AnuragChowdhury,MonikaWoszczyna
SolventumHealthInformationSystems,USA
{aghosh4,mark.fuhs,bkim11,achowdhury2,mwoszczyna}@
Abstract况下,例如总结,识别发言者角色(医生、病人、
律师、客户等)比知道确切的说话者身份更有价
从应用角度来看,说话者角色分割(RD),例如医
值。虽然外部说话人数据可以简化角色推断,但它
生与患者、主持人与嘉宾等,比传统的说话者分割
经常不可用。在这种情况下,“谁(角色)说了什
(SD)更有用,后者分配通用标签如说话者-1、说
么?”的联合ASR+RD变得至关重要。
话者-2等。在联合自动语音识别(ASR)+SD(谁
一种RD的方法是从ASR转录中直接推断角
本说了什么?)的背景下,最近的端到端模型采用一色[5,6]。王等人。[6]表明了使用大型语言模型
个辅助的SD转换器,与ASR转换器同步,以按
译(LLM)进行此任务的应用。然而,仅靠文本可能
词预测说话者。在这篇论文中,我们通过三个关键
中并不总是足够的,特别是在快速对话和简短交流
贡献将这一框架扩展到RD:(1)我们简化了训练
1的情况下。在文本上下文有限的场景中,如流式
v过程,使用强制对齐和交叉熵损失而不是RNNT
5损失,(2)我们展示了词预测和角色预测需要不同传输或分段处理,这一挑战变得更加严峻。因此,
6为了超越基于文本的方法改进RD,必须融入声学
7数量的预测器上下文,导致独立的任务特定预测
7信息。
1器,不同于现有的共享预测器模型,(3)我们提出
7.了一种利用RD后验活动影响ASR解码并减少小现有的结合声学和语言线索进行角色分割的
0词删除错误的方法。方法[7–11]分为两类:模块化系统和端到端模型。
5
2IndexTerms:自动语音识别,说话人分割,角模块化系统,例如[9],使用面向角色的语言模型
:进行分类,并通过x-vector聚类进行改进。在[10]
v色分割,RNNT损失,束有哪些信誉好的足球投注网站,空白抑制
i中,将基于BERT的分类器与受角色约束的x-
x
r
avector聚类相结合。然而,这些系统存在误差传
1.介绍
播的问题,因此端到端模型更具吸引力。早期的
在多发言人对话中,如医生与患者会面、律师
您可能关注的文档
- 与物交谈:将大语言模型集成到物联网网络中-计算机科学-大语言模型-物联网-边缘计算.pdf
- ARCADE:一种混合 AI 环境下的 6G 网络 RAN 诊断方法论-计算机科学-人工智能-6G 网络.pdf
- 通过基于生成式人工智能的图像合成实现基于人工智能的皮肤病变分类器的公平性评估优化-计算机科学-深度学习-可信赖的人工智能-医疗影像.pdf
- TIPPY 的技术实现:药物发现实验室自动化的多代理架构和系统设计-计算机科学-AI 代理- 多智能体系统-微服务.pdf
- PinchBot:长周期可变形操作的引导扩散策略-计算机科学-人工智能-机器人.pdf
- 通过增强型用户面功能和分析优化超越 5G 网络中的边缘游戏切片-计算机科学-人工智能-云计算.pdf
- GenSelect: 一种生成最佳之 N 的方法-计算机科学-机器学习-生成奖励模型-数学推理.pdf
- CHAMP:一种用于自适应生物识别任务的可配置、热插拔边缘架构-计算机科学-自定义操作系统-人工智能.pdf
- 自适应重复以减轻 LLM 基础排序中的位置偏见-计算机科学-人工智能-大语言模型.pdf
- 共同的沉思:与机器合作者十年的数学发现-计算机科学-自动化猜想系统-数学思维-人工智能.pdf
最近下载
- 肉类食品配送服务投标方案(技术方案).docx
- 新冠疫苗疑似预防接种异常反应监测与处置方案.docx VIP
- 北京版五年级下册数学计算题专项练习1000道带答案.docx VIP
- 学校学生奶投标配送方案.docx VIP
- 2011别克昂科雷全车电路图.pdf VIP
- 2024年02月[北京]2024年中国金融电子化集团有限公司录用招考(招考)笔试历年参考题库附带答案详解.docx
- 2025年辽宁铁道职业技术学院单招职业适应性考试题库完美版.docx VIP
- 2025年辽宁铁道职业技术学院单招职业技能测试题库汇编.docx VIP
- 剑桥国际少儿英语(第二版) Level 4 8 Let’s party! Lesson 4 课件.ppt VIP
- 初二物理上学期.docx VIP
文档评论(0)