- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
面向企业应用的计算机使用通才代理
SamiMarreed,AlonOved,AviYaeli,SegevShlomov,IdoLevy,Offer
Akrabi,AviadSela,AsafAdi,NirMashkif
IBMResearch
{sami.marreed,alon.oved,segev.shlomov1,ido.levy1}@
{aviy,offer.akrabi,sela,adi,nirm}@
本
译
中摘要
本文介绍了我们正在开发的面向企业的通用代理计算机系统(CUGA)的工作。我们的研究
3
v强调了构建适用于企业环境的智能系统的进化性质。通过将最先进的代理人工智能技术与迭代
1
6评估、分析和改进的系统方法相结合,我们在WebArena和AppWorld基准测试中取得了显著
8的进步,达到了新的性能标准,并实现了快速且成本效益高的性能提升。我们详细介绍了开发
1
0路线图,以及促进从失败中迅速学习和持续系统改进的方法论和工具,并讨论了企业采纳过程
3.中遇到的关键经验和未来挑战。
0
5
21介绍
:
v
i
x企业级、使用计算机的通用代理的发展代表了人工智能领域的一个重要前沿,有望彻底改变各
r
a行各业的生产力、工作流程、自动化和决策制定。大型语言模型、视觉模型和行动模型的近期进展,
以及代理型AI框架和实现的进步,不断提高了现有计算机使用基准的标准。虽然最近的公告,如
Anthropic的ComputerUse[1]和OpenAI的Operator[4],表明商业机会正在增长,但要实现这一
愿景不仅需要尖端模型、算法或产品原型,仍然存在重大挑战。
在IBM研究部门,我们的目标是引领代理系统的发展,这些系统不仅完成任务,还涵盖了企
业采纳所需的所有维度,如隐私、安全、可信度和AI代理解决方案的成本效益。作为这一使命的一
部分,我们已经开始开发计算机通用代理(CUGA)。我们对IBMCUGA的愿景是开发一个可以由
知识工作者调整和配置以安全且值得信赖的方式执行其工作的常规或复杂部分的通用代理。我们的
第一个版本专注于网络应用程序中的知识工人任务,并在WebArena基准测试[8]上进行了测试。
如表1所示,CUGA在WebArena基准测试中实现了任务完成的新最先进水平61.7%—[7]。
在AppWorld基准测试[5]中,该代理实现了46%的场景完成率——也达到了新的最先进水平。
*这些主要作者对这项工作做出了同等贡献
1
表1:CUGA在基准测试中的结果
基准名称成功率/完成率领域描述
WebArena61.7%successrateWebEvaluatesweb-basedtasks
AppWorld48.2%scenariocompletionrateAPIEvaluatesAPItasks
AppWorld评估了代理动态选择适当API、管理变量、推理先决条件和输出以及使其策略与长期目
标保持一致的能力——这些都是现实世界企业系统中必不可少的技能。
本文概述了我们工作的当前状态,详细介绍了我们的代理架构如何随
您可能关注的文档
- 医疗格兰纳: 基于大语言模型生成的医学指导以支持医生进行诊断-计算机科学-大语言模型-医学决策.pdf
- 有损共同信息的互信息界限-计算机科学-机器学习-信息论-算法.pdf
- 联邦乳腺癌检测通过合成超声图像增强-计算机科学-联邦学习-乳腺超声-医学图像分类.pdf
- 超参数优化的 LLM 代理-计算机科学-大语言模型-无人驾驶飞机-自动超参数调整.pdf
- Q2SAR: 一种用于药物发现的量子多核学习方法-计算机科学-药物发现-量子机器学习-支持向量机.pdf
- MedSyn:通过人机协作提升诊断能力-计算机科学-医疗决策制定-混合智能-临床自然语言处理.pdf
- 大型语言模型评估:通过迭代成对比较使用大型语言模型进行评价-计算机科学-大语言模型-淘汰赛评估法.pdf
- 因果推断并不特殊:为什么它只是另一个预测问题-计算机科学-建模.pdf
最近下载
- T∕CACM 1137-2018 中医神志病临床诊疗指南 躯体形式障碍.pdf
- 与采购人配合沟通方案.docx VIP
- 晋剧《明公断》剧本.doc VIP
- 血液透析并发症脑出血ppt.pptx
- 航空与航天摄影技术课件.pptx
- 2024-2025学年深圳市人大附中新高一入学分班考试数学模拟试卷附答案解析.docx VIP
- 西部黄金伊犁有限责任公司金锌精矿综合回收及氰化渣无害化治理项目环境影响报告书.pdf VIP
- 不锈钢管安装施工方案.doc VIP
- 含碘对比剂静脉外渗护理管理实践指南解读.pptx VIP
- (精编)沪教版上海市小学二年级数学上册期末考试试题(共4套,已编好文档).pdf VIP
文档评论(0)