- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
恢复节奏:使用Transformer模型为低资源语言孟
加拉语进行标点符号恢复
MdObyedullahilMamun,MdAdyelullahilMamun,
ArifAhmad,andMd.ImranHossainEmu
BangladeshArmyInternationalUniversityofScienceandTechnology(BAIUST),
Cumilla,Bangladesh
{obyedullahilmamun,mdihemu}@
BRACUniversity,Dhaka,Bangladesh
md.adyelullahil.mamun@g.bracu.ac.bd
本NorthEastUniversityBangladesh(NEUB),Sylhet,Bangladesh
译arif@.bd
中
1摘要标点恢复增强了文本的可读性,并且对于自动语音识别(ASR)中的
v
8后处理任务至关重要,特别是对于孟加拉语这样的低资源语言。在这项研
4究中,我们探讨了基于变压器模型的应用,具体是XLM-RoBERTa-large,
4
8用于自动恢复未加标点符号的孟加拉语文本中的标点符号。我们的重点是
1在各种文本领域内预测四种标点符号—句号、逗号、问号和感叹号。为了
.
7应对标注资源稀缺的问题,我们构建了一个大而多样的训练语料库,并应
0用了数据增强技术。在使用倍数的数据扩增因子训练的最佳模
5
2型,在新闻测试集上达到了97.1%的准确率,在参考集中达到91.2%,在
:
vASR集合中则为90.2%。结果显示对参考和ASR转录的良好泛化,证明
i了该模型在现实世界、嘈杂场景中的有效性。这项工作建立了孟加拉语标
x
r点恢复的强大基线,并提供了公共可用的数据集和代码以支持未来低资源
a
NLP研究。
Keywords:标点恢复·标点符号·深度学习·变换模型·自然语言
处理。
1介绍
标点恢复是提高ASR生成文本可读性和实用性的关键后处理步骤,支
持诸如翻译、摘要和情感分析等下游自然语言处理(NLP)任务[10][16]。
缺乏适当的标点符号会导致句子间的语义界限模糊,进而导致歧义并降低
NLP流水线的有效性。
早期模型使用词汇特征和统计方法,如条件随机场(CRF)[15][26],在
大规模语料库上进行训练。深度学习的发展引入了更为有效的技术,如长短
时记忆(LSTM)网络、卷积神经网络(CNNs),以及最近的基于转换器的
模型[4][8]
您可能关注的文档
- LLMs 预测先决技能的效果如何?零样本对比专家定义的概念-计算机科学-大语言模型-零样本预测-生成式 AI.pdf
- 使用具有符号推理的大型语言模型进行自动化代码审查-计算机科学-大语言模型-代码审查-符号推理.pdf
- 收缩性、临界性和容量:从动力系统视角看回声状态网络-计算机科学-机器学习-回声状态网络-神经生物学.pdf
- DriftMoE: 处理概念漂移的专家混合方法-计算机科学-在线增量学习-专家混合.pdf
- 面向设计一种基于强化学习的云系统能量感知数据复制策略-计算机科学-强化学习-云数据.pdf
- 基于 LLM 的嵌入式先前案例检索-计算机科学-机器学习-信息检索-大语言模型.pdf
- PDB-Eval:大型多模态模型在个性化驾驶行为描述和解释中的评估-计算机科学-人工智能-多模态模型-驾驶辅助系统.pdf
- 流式 Sortformer:基于发言者缓存的在线发言者分离与到达时间排序-计算机科学-机器学习-说话人分割-语音处理.pdf
- 自监督超声视频分割与特征预测及 3D 局部损失-计算机科学-自监督学习-超声成像.pdf
- 多语言维基百科表格中的事实不一致-计算机科学-人工智能-事实核查.pdf
- 全景学习地图集成学习分析和课程地图以实现跨课程的可扩展洞察-计算机科学-全景学习地图-机器学习.pdf
- 符合数据隐私的法律要求:一项关于匿名化技术的研究-计算机科学-机器学习-个人数据保护.pdf
文档评论(0)