THM@SimpleText 2025 - 任务 1.1-基于复杂术语的非专 家文本简化再探-计算机科学-大语言模型-文本简化-复杂术语识别-提示工程.pdfVIP

THM@SimpleText 2025 - 任务 1.1-基于复杂术语的非专 家文本简化再探-计算机科学-大语言模型-文本简化-复杂术语识别-提示工程.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

THM@SimpleText2025-任务1.1:基于复杂术语的非专

家文本简化再探

NicoHofmann,JulianDauenhauer,NilsOleDietzler,IdehenDanielIdahorand1111

ChristinKatharinaKreutz1,2,∗

1THMittelhessen-UniversityofAppliedSciences,Gießen,Germany

2HerderInstitute,Marburg,Germany

Abstract

科学文本因其定义而包含专业术语,因此较为复杂。简化此类文本可以提高创新和信息的可访问性。这可以使政治家能够理

解他们在打算立法的主题上的新发现,或者让重病患者的家属阅读临床试验的相关内容。

简单文本CLEF实验室专注于简化科学文本这一问题。2025版的任务1.1特别处理复杂句子的简化,因此非常短且上下文

较少的文本。为了解决这个任务,我们研究了在句子中识别复杂术语的方法,并使用小型Gemini和OpenAI大型语言模型为

非专业读者进行重新表述。

Keywords

文本简化,复杂术语识别,大语言模型,提示工程,人物设定

译1.介绍

中科学文本是为领域专家和受过高度教育的学者撰写并理解的。此类文本充满了缩略词和技术术语,

1并且需要符合严格的页数或字数限制。

v多年来,SimpleText计划[1,2,3,4,5,6]已经展示了大量努力,以帮助加速开发使此类文本更易

4于公众理解的方法。在文本简化工作中,目标受众的重要性已被考虑过[7]。例如,为儿童简化的文

1本应包含短句子[8]但不应过度简化以免影响读者的兴趣[9]。

4

4虽然有针对不同领域和不同目标受众简化文本的方法[10,11],大多数方法都没有考虑到这些特

0定性[12]。过度简化文本,使其整体复杂度不再符合读者所需的复杂度水平,对于几乎所有目标受

7.众都是不利的,因为它会导致读者失去兴趣[9]。因此,文本的简洁程度应该拟合其预期读者。

0一般而言,在为非专家简化文本时,我们假设读者具有理解复杂短语和语法的适当的语言技能,

5但无法因缺少领域知识而理解一段文字。因此我们的想法是识别文中的复杂专业术语,试图仅替换

2这些复杂成分,同时保持整体结构和语言复杂性。

:

v本工作解决了今年的SimpleText实验室任务1.1~[5,6,13],即为非专家读者简化短科学文本。

i

x该任务具有挑战性的特点在于只提供非常少的上下文(句子本身)来简化内容。我们尝试通过基于

rIRGC@SimpleText’23~[14]之前提交的内容来解决此任务,该提交专注于复杂科学术语识别,并在

a

使用小型大型语言模型(LLMs)时研究不同的提示。

2.数据集

任务1.1由SimpleText实验室提供的数据集[5]包含从科学出版物中提取的9160个英文短文本。这

些文本主要是单句,例如,所有研究中的干预措施都包括针对卫生保健工作者的实施策略;三项研

究包括交付安排,没有研究使用财务安排或治理安排。(pair_id=CD012520,206字符)具有相当复

杂的句子结构。数据集中有9086个独特的文本,它们的平均长度为168.66个字符。Figure1表示数

据集内独特文本长度的直方图。

Figure1:数据集中唯一文本长度的概述。

3.方法

我们调查了三个可以在文本简化中选择性使用的步骤。首先,一个重新表述,例如通过一个大语言

模型(LLM),可以修改原始文本。然后对于原始或经过修改的文本,可以识别并特别标记出复杂的

科学术语。作为最后一步,在原始或修改后的文本上实际运行简化,这些文本要么有复杂的术语被

标记出来,要么没有,例如再次使用一个大语言模型(LLM)。

3.1.步骤1:重新表述

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档