自适应多智能体推理通过自动化工作流生成-计算机科学-大语言模型-多智能体系统-推理.pdfVIP

自适应多智能体推理通过自动化工作流生成-计算机科学-大语言模型-多智能体系统-推理.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

自适应多智能体推理

通过自动化工作流生成

111,21*

HumzaSami,MubashirulIslam,Pierre-EmmanuelGaillardon,ValerioTenace

1PrimisAI,LosGatos,CA,USA

2UniversityofUtah,SaltLakeCity,UT,USA

ABSTRACT

本大型推理模型(LRMs)的崛起预示着语言模型能力的巨大飞跃,旨在以前所未有的效率和准

确性应对越来越复杂的工作。然而,尽管它们的表现令人印象深刻,但最近的研究表明,当

译前的推理模型经常无法推广到新的、未曾见过的问题上,往往依赖于记忆中的解决方案而不

是真正的推断推理。这种行为突显了现代LRMs的一个关键限制,即它们倾向于过拟合,这

中反过来导致了解决问题能力上的泛化性能差。

1在本文中,我们介绍了枢纽架构师,这是我们多智能体系统框架Nexus的增强迭代版本,配

v备了一种新颖的自动化工作流综合机制。给定用户的提示和一组代表性示例,Architect会自

3主生成一个定制化的推理工作流程,通过选择合适的策略、工具集成和对抗技术来解决特定

9问题类别。此外,Architect还包括一种迭代的提示精炼机制,用于微调智能体的系统提示,

3以最大化性能并提高系统的泛化能力。

4

1我们通过在一组具有挑战性的逻辑问题的自定义数据集上使用一个随机购买的非推理模型

.来实证评估NexusArchitect,并将其性能与最先进的LRMs进行比较。结果显示,Nexus

7Architect始终优于现有解决方案,通过率比Gemini2.5FlashPreview提高了高达66%,几乎

0比ClaudeSonnet4和DeepSeek-R1高出2.5,并且比Llama4Scout高出超过3。

5

2源代码:/PrimisAI/nexus

:

v数据集:/PrimisAI/arcbench

i

x

rKeywords大型语言模型推理多智能体系统生成式人工智能

a

1介绍

大型语言模型(大语言模型)作为极其强大的工具出现,展示了在各种自然语言处理任务中的卓越表现,包

括翻译、总结、问答等许多其他任务。随着这些系统的规模和复杂性的增长,对于它们有效处理多步骤推理

任务的需求也在增加。这种需求催生了一个专注于开发能够明确展示并利用中间推理步骤的推理增强型语言

模型的专门子领域。自其诞生以来,这些大规模推理模型(LRMs)强调了更结构化推理阶段的重要性,使语

言模型能够解决超越简单模式匹配的问题。然而,尽管受到广泛赞誉,LRMs在需要真正的推断性推理的任

务中往往表现出局限性。最近的研究一致指出,虽然LRMs在既定基准上表现良好,但它们经常依赖记忆而

非真实的推断过程,导致对新任务的泛化能力较差[1–4]。因此,这限制了它们在需要适应性和强大的推理能

力的动态和复杂环境中的有效性。

先前的研究支持记忆在削弱语言模型性能方面的作用。例如,Gendron等人[5]证明了最先进的大语言模型

在抽象推理任务中的显著弱点,显示出它们倾向于表面模式匹配而非逻辑推理。同样,王等人[6]引入了分

布记忆的概念,强调大型语言模型在知识密集型任务上的表现与其训练数据中

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档