THM@SimpleText 2025 - 任务 1.1-基于复杂术语的非专家文本简化再探-计算机科学-大语言模型-文本简化-复杂术语识别-提示工程.pdfVIP

下载本文档

0
0
约2.49万字
约 8页
2025-07-26 发布于中国
举报
版权申诉

THM@SimpleText 2025 - 任务 1.1-基于复杂术语的非专家文本简化再探-计算机科学-大语言模型-文本简化-复杂术语识别-提示工程.pdf

1、本文档共8页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

THM@SimpleText2025-任务1.1：基于复杂术语的非专

家文本简化再探

NicoHofmann,JulianDauenhauer,NilsOleDietzler,IdehenDanielIdahorand1111

ChristinKatharinaKreutz1,2,∗

1THMittelhessen-UniversityofAppliedSciences,Gießen,Germany

2HerderInstitute,Marburg,Germany

Abstract

科学文本因其定义而包含专业术语，因此较为复杂。简化此类文本可以提高创新和信息的可访问性。这可以使政治家能够理

解他们在打算立法的主题上的新发现，或者让重病患者的家属阅读临床试验的相关内容。

简单文本CLEF实验室专注于简化科学文本这一问题。2025版的任务1.1特别处理复杂句子的简化，因此非常短且上下文

较少的文本。为了解决这个任务，我们研究了在句子中识别复杂术语的方法，并使用小型Gemini和OpenAI大型语言模型为

非专业读者进行重新表述。

Keywords

文本简化,复杂术语识别,大语言模型,提示工程,人物设定

本

译1.介绍

中科学文本是为领域专家和受过高度教育的学者撰写并理解的。此类文本充满了缩略词和技术术语，

1并且需要符合严格的页数或字数限制。

v多年来，SimpleText计划[1,2,3,4,5,6]已经展示了大量努力，以帮助加速开发使此类文本更易

4于公众理解的方法。在文本简化工作中，目标受众的重要性已被考虑过[7]。例如，为儿童简化的文

1本应包含短句子[8]但不应过度简化以免影响读者的兴趣[9]。

4虽然有针对不同领域和不同目标受众简化文本的方法[10,11],大多数方法都没有考虑到这些特

0定性[12]。过度简化文本，使其整体复杂度不再符合读者所需的复杂度水平，对于几乎所有目标受

7.众都是不利的，因为它会导致读者失去兴趣[9]。因此，文本的简洁程度应该拟合其预期读者。

0一般而言，在为非专家简化文本时，我们假设读者具有理解复杂短语和语法的适当的语言技能，

5但无法因缺少领域知识而理解一段文字。因此我们的想法是识别文中的复杂专业术语，试图仅替换

2这些复杂成分，同时保持整体结构和语言复杂性。

v本工作解决了今年的SimpleText实验室任务1.1～[5,6,13]，即为非专家读者简化短科学文本。

x该任务具有挑战性的特点在于只提供非常少的上下文（句子本身）来简化内容。我们尝试通过基于

rIRGC@SimpleText’23～[14]之前提交的内容来解决此任务，该提交专注于复杂科学术语识别，并在

使用小型大型语言模型(LLMs)时研究不同的提示。

2.数据集

任务1.1由SimpleText实验室提供的数据集[5]包含从科学出版物中提取的9160个英文短文本。这

些文本主要是单句，例如，所有研究中的干预措施都包括针对卫生保健工作者的实施策略；三项研

究包括交付安排，没有研究使用财务安排或治理安排。（pair_id=CD012520，206字符）具有相当复

杂的句子结构。数据集中有9086个独特的文本，它们的平均长度为168.66个字符。Figure1表示数

据集内独特文本长度的直方图。

Figure1:数据集中唯一文本长度的概述。

3.方法

我们调查了三个可以在文本简化中选择性使用的步骤。首先，一个重新表述，例如通过一个大语言

模型（LLM），可以修改原始文本。然后对于原始或经过修改的文本，可以识别并特别标记出复杂的

科学术语。作为最后一步，在原始或修改后的文本上实际运行简化，这些文本要么有复杂的术语被

标记出来，要么没有，例如再次使用一个大语言模型（LLM）。

3.1.步骤1：重新表述

包

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

THM@SimpleText 2025 - 任务 1.1-基于复杂术语的非专家文本简化再探-计算机科学-大语言模型-文本简化-复杂术语识别-提示工程.pdfVIP