- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
THM@SimpleText2025-任务1.1:基于复杂术语的非专
家文本简化再探
NicoHofmann,JulianDauenhauer,NilsOleDietzler,IdehenDanielIdahorand1111
ChristinKatharinaKreutz1,2,∗
1THMittelhessen-UniversityofAppliedSciences,Gießen,Germany
2HerderInstitute,Marburg,Germany
Abstract
科学文本因其定义而包含专业术语,因此较为复杂。简化此类文本可以提高创新和信息的可访问性。这可以使政治家能够理
解他们在打算立法的主题上的新发现,或者让重病患者的家属阅读临床试验的相关内容。
简单文本CLEF实验室专注于简化科学文本这一问题。2025版的任务1.1特别处理复杂句子的简化,因此非常短且上下文
较少的文本。为了解决这个任务,我们研究了在句子中识别复杂术语的方法,并使用小型Gemini和OpenAI大型语言模型为
非专业读者进行重新表述。
Keywords
文本简化,复杂术语识别,大语言模型,提示工程,人物设定
本
译1.介绍
中科学文本是为领域专家和受过高度教育的学者撰写并理解的。此类文本充满了缩略词和技术术语,
1并且需要符合严格的页数或字数限制。
v多年来,SimpleText计划[1,2,3,4,5,6]已经展示了大量努力,以帮助加速开发使此类文本更易
4于公众理解的方法。在文本简化工作中,目标受众的重要性已被考虑过[7]。例如,为儿童简化的文
1本应包含短句子[8]但不应过度简化以免影响读者的兴趣[9]。
4
4虽然有针对不同领域和不同目标受众简化文本的方法[10,11],大多数方法都没有考虑到这些特
0定性[12]。过度简化文本,使其整体复杂度不再符合读者所需的复杂度水平,对于几乎所有目标受
7.众都是不利的,因为它会导致读者失去兴趣[9]。因此,文本的简洁程度应该拟合其预期读者。
0一般而言,在为非专家简化文本时,我们假设读者具有理解复杂短语和语法的适当的语言技能,
5但无法因缺少领域知识而理解一段文字。因此我们的想法是识别文中的复杂专业术语,试图仅替换
2这些复杂成分,同时保持整体结构和语言复杂性。
:
v本工作解决了今年的SimpleText实验室任务1.1~[5,6,13],即为非专家读者简化短科学文本。
i
x该任务具有挑战性的特点在于只提供非常少的上下文(句子本身)来简化内容。我们尝试通过基于
rIRGC@SimpleText’23~[14]之前提交的内容来解决此任务,该提交专注于复杂科学术语识别,并在
a
使用小型大型语言模型(LLMs)时研究不同的提示。
2.数据集
任务1.1由SimpleText实验室提供的数据集[5]包含从科学出版物中提取的9160个英文短文本。这
些文本主要是单句,例如,所有研究中的干预措施都包括针对卫生保健工作者的实施策略;三项研
究包括交付安排,没有研究使用财务安排或治理安排。(pair_id=CD012520,206字符)具有相当复
杂的句子结构。数据集中有9086个独特的文本,它们的平均长度为168.66个字符。Figure1表示数
据集内独特文本长度的直方图。
Figure1:数据集中唯一文本长度的概述。
3.方法
我们调查了三个可以在文本简化中选择性使用的步骤。首先,一个重新表述,例如通过一个大语言
模型(LLM),可以修改原始文本。然后对于原始或经过修改的文本,可以识别并特别标记出复杂的
科学术语。作为最后一步,在原始或修改后的文本上实际运行简化,这些文本要么有复杂的术语被
标记出来,要么没有,例如再次使用一个大语言模型(LLM)。
3.1.步骤1:重新表述
包
您可能关注的文档
- 多模态验证通过多代理深度研究多模态大型语言模型-计算机科学-多媒体验证-多模态大语言模型.pdf
- 电压模式胜者全得电路在神经形态系统中的应用-计算机科学-机器学习-神经形态电路.pdf
- 罕见病治疗突破2025:基因编辑技术应用研究解析.docx
- 2025年自动驾驶商用车在自动驾驶法规政策研究中的趋势报告.docx
- 数字藏品市场投机风险防范与监管机制创新研究.docx
- 新能源汽车充电网络建设与区域经济发展关系研究.docx
- 2025年数字货币跨境支付监管政策对支付行业发展趋势分析.docx
- 2025年线上法律咨询平台在法律服务行业行业竞争格局中的应用分析.docx
- 跨境安防需求下2025年新能源电动巡逻车AI算法优化与市场潜力报告.docx
- 2025年新能源电动巡逻车在城市安防产业人才培养与职业规划研究.docx
- 2025年网络文学平台版权运营模式创新与版权保护体系构建.docx
- 数字藏品市场运营策略洞察:2025年市场风险与应对策略分析.docx
- 全球新能源汽车产业政策法规与市场前景白皮书.docx
- 工业互联网平台安全标准制定:安全防护与合规性监管策略.docx
- 剧本杀剧本创作审核标准2025年优化与行业自律.docx
- 2025年新能源电动巡逻车在城市安防中的应用对城市环境的影响分析.docx
- 全渠道零售案例精选:2025年行业创新实践报告.docx
- 2025年网约车司乘纠纷处理机制优化与行业可持续发展报告.docx
- 2025年宠物烘焙食品市场法规政策解读:合规经营与风险规避.docx
- 2025年宠物行业数据安全监管政策影响分析报告.docx
最近下载
- 《常考题》初中八年级数学上册第十三章《轴对称》习题(含答案解析).docx VIP
- 《事件相关电位入门》课件.ppt VIP
- 《儿童骨科疾病诊断》课件.ppt VIP
- 公司战略与风险管理 第3版 吕文栋 教学大纲+教案1--3.doc
- 12SG121-1 施工图结构设计总说明(混凝土结构) .docx VIP
- 一种实验室危化品试剂进出库智能化管控系统及管控方法.pdf VIP
- 专练08:读后续写-2020-2021学年高一英语下学期期末题型专项训练.docx VIP
- 动脉血标本采集技术操作考核及评分标准.docx
- AI驱动的知识图谱:混合式教学模式创新研究.docx VIP
- AI辅助混合式教学设计实践与效果评估.docx VIP
文档评论(0)