恢复节奏:使用 Transformer 模型为低资源语言孟加拉语进行标点符号恢复-计算机科学-深度学习-变换模型-自然语言处理.pdfVIP

恢复节奏:使用 Transformer 模型为低资源语言孟加拉语进行标点符号恢复-计算机科学-深度学习-变换模型-自然语言处理.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

恢复节奏:使用Transformer模型为低资源语言孟

加拉语进行标点符号恢复

MdObyedullahilMamun,MdAdyelullahilMamun,

ArifAhmad,andMd.ImranHossainEmu

BangladeshArmyInternationalUniversityofScienceandTechnology(BAIUST),

Cumilla,Bangladesh

{obyedullahilmamun,mdihemu}@

BRACUniversity,Dhaka,Bangladesh

md.adyelullahil.mamun@g.bracu.ac.bd

本NorthEastUniversityBangladesh(NEUB),Sylhet,Bangladesh

译arif@.bd

1摘要标点恢复增强了文本的可读性,并且对于自动语音识别(ASR)中的

v

8后处理任务至关重要,特别是对于孟加拉语这样的低资源语言。在这项研

4究中,我们探讨了基于变压器模型的应用,具体是XLM-RoBERTa-large,

4

8用于自动恢复未加标点符号的孟加拉语文本中的标点符号。我们的重点是

1在各种文本领域内预测四种标点符号—句号、逗号、问号和感叹号。为了

.

7应对标注资源稀缺的问题,我们构建了一个大而多样的训练语料库,并应

0用了数据增强技术。在使用倍数的数据扩增因子训练的最佳模

5

2型,在新闻测试集上达到了97.1%的准确率,在参考集中达到91.2%,在

:

vASR集合中则为90.2%。结果显示对参考和ASR转录的良好泛化,证明

i了该模型在现实世界、嘈杂场景中的有效性。这项工作建立了孟加拉语标

x

r点恢复的强大基线,并提供了公共可用的数据集和代码以支持未来低资源

a

NLP研究。

Keywords:标点恢复·标点符号·深度学习·变换模型·自然语言

处理。

1介绍

标点恢复是提高ASR生成文本可读性和实用性的关键后处理步骤,支

持诸如翻译、摘要和情感分析等下游自然语言处理(NLP)任务[10][16]。

缺乏适当的标点符号会导致句子间的语义界限模糊,进而导致歧义并降低

NLP流水线的有效性。

早期模型使用词汇特征和统计方法,如条件随机场(CRF)[15][26],在

大规模语料库上进行训练。深度学习的发展引入了更为有效的技术,如长短

时记忆(LSTM)网络、卷积神经网络(CNNs),以及最近的基于转换器的

模型[4][8]

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档