文档信息提取@合成大模型 25:使用完全合成示例的上下文学习-计算机科学-大语言模型-数据合成-上下文学习.pdf

文档信息提取@合成大模型 25:使用完全合成示例的上下文学习-计算机科学-大语言模型-数据合成-上下文学习.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

文档信息提取@合成大模型25:使用完全合成示例的上下文学习

NicholasPopoviAshishKangenTimSchopfMichaelFärber

ScaDS.AITUDresden,Germany

{nicholas.popovic,ashish_yashwanth.kangen,tim.schopf,michael.faerber}@tu-dresden.de

摘要(Organizers)的这一方向,该任务要求系统在零

样本设置下对长的非结构化文档执行联合实体

大型、高质量的标注语料库在零样本或少

本样本设置中的文档级实体和关系抽取中仍和关系抽取。

译然稀缺。本文介绍了一种完全自动化的基

于大语言模型的数据合成和上下文学习管具体来说,我们通过两种最近流行的途径

中道,用于文档级实体和关系抽取。与依赖来探讨这一主题:一种是针对需要大量推理

1于手动标注示例或直接零样本推理的方法

v任务的优化大型语言模型(DeepSeek-AIetal.,

7不同,我们的方法结合了数据生成与检索2025),另一种则是合成数据增强技术,这种

9基的上下文学习,并使用了优化推理的语

9技术在信息提取领域特别流行,因为可扩展的

5言模型。这使我们能够在无需人工注释的

0.情况下建立高质量的示范数据库,并在推数据标注仍然是一个重大挑战(Lietal.,2023;

7理时动态检索相关示例。基于我们的方法,Josifoskietal.,2023;Rogulskyetal.,2024)。为了

0

5我们生成了一个超过个维基百科摘要的将两者结合起来,我们构建了一个简单的基于

2合成数据集,包含大约个实体和检索的上下文学习设置,在这个设置中,大型

:

v个关系三元组。最后,我们在DocIE共享

i语言模型的任务是根据从给定文本相似度检索

x任务上评估了上下文学习性能,在零样本

r到的一个示例演示来抽取实体和关系。为了保

a设置中从长文档中提取实体和关系。我们

持零样本设定,我们将限制条件设为示例演示

发现,即使是对于最先进的大语言模型而

必须不是手动标注的,而是合成生成的例子。

言,文档级的上下文联合实体和关系抽取

仍是一项具有挑战性的任务。因此,我们开发了一种用于合成数据生成管道

的方法,该方法能够生产高质量的受模式约束

1介绍

的实体和关系提取标注例子。我们在共享任务

信息提取(IE)是自然语言处理(NLP)以及Re-DocRED(Tanetal.,2022)数据集上的

研究中的

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档