面向企业应用的计算机使用通才代理-计算机科学-代理人工智能技术.pdfVIP

面向企业应用的计算机使用通才代理-计算机科学-代理人工智能技术.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

面向企业应用的计算机使用通才代理

SamiMarreed,AlonOved,AviYaeli,SegevShlomov,IdoLevy,Offer

Akrabi,AviadSela,AsafAdi,NirMashkif

IBMResearch

{sami.marreed,alon.oved,segev.shlomov1,ido.levy1}@

{aviy,offer.akrabi,sela,adi,nirm}@

中摘要

本文介绍了我们正在开发的面向企业的通用代理计算机系统(CUGA)的工作。我们的研究

3

v强调了构建适用于企业环境的智能系统的进化性质。通过将最先进的代理人工智能技术与迭代

1

6评估、分析和改进的系统方法相结合,我们在WebArena和AppWorld基准测试中取得了显著

8的进步,达到了新的性能标准,并实现了快速且成本效益高的性能提升。我们详细介绍了开发

1

0路线图,以及促进从失败中迅速学习和持续系统改进的方法论和工具,并讨论了企业采纳过程

3.中遇到的关键经验和未来挑战。

0

5

21介绍

:

v

i

x企业级、使用计算机的通用代理的发展代表了人工智能领域的一个重要前沿,有望彻底改变各

r

a行各业的生产力、工作流程、自动化和决策制定。大型语言模型、视觉模型和行动模型的近期进展,

以及代理型AI框架和实现的进步,不断提高了现有计算机使用基准的标准。虽然最近的公告,如

Anthropic的ComputerUse[1]和OpenAI的Operator[4],表明商业机会正在增长,但要实现这一

愿景不仅需要尖端模型、算法或产品原型,仍然存在重大挑战。

在IBM研究部门,我们的目标是引领代理系统的发展,这些系统不仅完成任务,还涵盖了企

业采纳所需的所有维度,如隐私、安全、可信度和AI代理解决方案的成本效益。作为这一使命的一

部分,我们已经开始开发计算机通用代理(CUGA)。我们对IBMCUGA的愿景是开发一个可以由

知识工作者调整和配置以安全且值得信赖的方式执行其工作的常规或复杂部分的通用代理。我们的

第一个版本专注于网络应用程序中的知识工人任务,并在WebArena基准测试[8]上进行了测试。

如表1所示,CUGA在WebArena基准测试中实现了任务完成的新最先进水平61.7%—[7]。

在AppWorld基准测试[5]中,该代理实现了46%的场景完成率——也达到了新的最先进水平。

*这些主要作者对这项工作做出了同等贡献

1

表1:CUGA在基准测试中的结果

基准名称成功率/完成率领域描述

WebArena61.7%successrateWebEvaluatesweb-basedtasks

AppWorld48.2%scenariocompletionrateAPIEvaluatesAPItasks

AppWorld评估了代理动态选择适当API、管理变量、推理先决条件和输出以及使其策略与长期目

标保持一致的能力——这些都是现实世界企业系统中必不可少的技能。

本文概述了我们工作的当前状态,详细介绍了我们的代理架构如何随

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档