多智能体 LLM 系统的规定与评估——原型与网络安全应用-计算机科学-大语言模型-多智能体系统-推理.pdf

多智能体 LLM 系统的规定与评估——原型与网络安全应用-计算机科学-大语言模型-多智能体系统-推理.pdf

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

多智能体LLM系统的规定与评估——原型与

网络安全应用

FelixHärer

UniversityofAppliedSciencesNorthwesternSwitzerland

Basel,Switzerland

felix.haerer@fhnw.ch

摘要—近期在大型语言模型(LLMs)方面的进展表明,这些尽管似乎不缺提供各种生成式AI界面的服务和应

模型具有潜在的新应用价值,这可以从OpenAI和DeepSeek用程序,但高影响力的用途仍然需要被系统地识别和

模型的推理能力中得到证明。为了将这些模型应用于文本生成之评估。

外的专业领域应用,可以利用基于LLM的多智能体系统来解决

本复杂任务,尤其是在结合多种推理技术、代码生成以及多个可能例如,系统评估需要确定特定的LLMs是否适用

译专业化的LLMs之间的软件执行方面。然而,尽管许多评估是以及如何在各个领域中使用它们,这些LLMs和技术

中在单独针对LLMs、推理技术和应用程序进行的,但它们联合在特定应用中的比较,还包括更高级别的比较,如协

规范和组合应用的理解还不充分。需要定义多智能体LLM系统

4调LLM代理发出提示输入并对不同交互模式、技术和

v的规格,以探索其在特定应用中的潜力和适用性,并系统地评估LLMs(如已建立的模型和新的推理模型)的输出作出

7LLMs、推理技术及相关方面的性能。本文报告了对(1.)通过

6引入代理模式语言来实现多智能体规范的探索性研究成果,以反应。此时,系统评估,如基准测试,仅专注于单独的

4

0及(2.)通过一个多智能体系统架构和原型来执行和评估这些规LLMs、技术和相关方面,只允许进行特定的比较。

1范的研究结果。该工作首次提出了规范语言、系统架构及原型,

6.并基于先前研究中的LLM系统进行构建。涉及网络安全任务的为了探讨将大型语言模型代理的专门知识和能力

0测试案例表明了该架构和评估方法的可行性。因此,可以证明代与特定应用中的推理和技术提示相结合的可能性,多代

5

2理使用来自OpenAI和DeepSeek的LLMs完成的问题回答、理LLM系统的规范需要进一步探索以评估其在应用中

:

v服务器安全以及网络安全性任务能够正确执行。的潜力并进行系统级别的评估。本文报告了通过原型设

iIndexTerms—大语言模型,多智能体系统,推理,网络

x计评估多代理LLM系统的实验研究初步结果。由此产

r安全。

a生的成果是一个启动于2023[5]的LLM执行系统,该

系统已扩展到定义和评估多代理LLM应用程序。特别

I.介绍地,一个扩展的架构和定义规范支持能够结合多个专门

化的LLMs并支持在任务执行中使用提示和技术推理

随着近期像DeepSeekR和OpenAIo变体这样的

的多代理系统。本文介绍了系统概述,包括架构、规格

大语言模型的发布,这些大语言模型在推理能力方面展

语言以及用于网络安全任务的测试案例。这些测试案例

示了进步[1],[2]。众所周知,针对高级数学挑战的问

通过使用OpenAI和DeepSeek提供的商业和公开的最

题和基准,如AIME2024,通过新颖的提示和

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档