- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大陪审团:用于动态质量评估标准的协作机器学习
模型评估协议
ArthurCho
hello@
MemoirjiLLC
本2025年8月9日
译
中
摘要
2
v
6生成式机器学习模型已成为现代系统的核心,驱动着创意写作、总结、多跳推理和
2上下文感知对话等应用[2].这些模型支撑着大规模AI助手、工作流程自动化和自主
9
2决策[15,20].在这样的领域中,“可接受的响应”很少是绝对或静态的,而是多样且高
0
.度依赖于上下文[3].然而,标准评估体系仍然依赖于静态的基准测试,激励优化以排
8
0行榜得分为目标,而不是与动态用户需求或不断变化的实际情况保持一致[6].大陪审
5
2团引入了一种正式的评价协议——结合时间衰减聚合、完整的可追溯性,并支持动态
:
v透明的任务评分标准和多评估人的判断。这些元素共同使得多元且负责的评估成为可
i
x能,能够捕捉不断演变的一致意见并揭示分歧。我们提供了(i)一个开源实现(大陪
r
a审团PyPI)以及(ii)一系列大型语言模型(LLM)推理输出的公共集合以说明其需求
和方法。GrandJury为AI从业者提供了一种新的评估机器学习输出的方法没有绝对
的地面真相.专利申请中:美国临时专利63/825,484,提交日期2025年6月17日。
1介绍
生成式AI系统的迅速普及改变了信息在各个领域中的生产、中介和消费方式——范
围涵盖了创意写作和对话辅助到自动化摘要、分析以及复杂推理任务~[2,19]。这些模型现
在作为数字助理、企业工作流、教育和研究中代理过程的基础~[23]。在这种情况下,输出
不仅仅是“正确”或“错误”,而是反映了有效观点、目标和解释的光谱~[1,21]。
然而,模型评估的标准方法仍然依赖于静态的地面真相数据和标准化的评估标准。诸
如BLEU[16]、ROUGE[12]和MMLU[9]等评价指标是为具有单一正确答案和明确定义
1
指标的任务设计的。长期以来用于翻译和摘要生成的BLEU和ROUGE倾向于奖励抽取
式输出和n-gram重叠,未能评估抽象性、细微差别或语境适宜性[18]。将它们应用于生成
式、开放式的或带有价值判断的输出会导致所测量的内容与实际重要的内容之间存在深刻
不匹配。
针对这些方法论的优化通常集中在自动化指标计算过程。其中值得一提的是RAGAS
(检索增强生成评估)[5],它是一套无参考指标,旨在在不依赖人工标注真实标签的情况下,
通过检索相关性、答案忠实度和上下文精确度等多个维度来评估检索增强生成(RAG)系
统。同样地,以大型语言模型作为评判的方法[26,24]——包括Prometheus[11]、JudgeLM[27]以
及基于GPT的评估管道等框架——通过使用模型来评估其他模型,从而实现评分自动化。
基于嵌入的技术如余弦相似度[25]也常用于自动可信性检查。
然而,这些代理方法仍然不足:RAGAS指标在开放任务中缺乏实证验证,并且经常与人
类偏好不相关[7],以LLM作为裁判的系统表现出可变的偏差和对提示的敏感性[17,22],
基于嵌入的分数忽视了叙述、语用或风格上的忠实度[14]。因此,尽管这些尝试旨在避免
人工标注的需求,但仍难以与微妙的人类判断保持一致。更糟的是,随着供应商和研究人
员设计自己的基准测试,“最先进的”定义变得越来越可塑且自指[13,8]。
2不确定性情况下的评估
2.1基于度量的评估的局限性与Vibe评
您可能关注的文档
- 关于情感影响和协调的人机反应之间的因果关系.pdf
- 基于事件的深度学习眼动追踪方法.pdf
- CoMAD: 一个多教师自监督蒸馏框架.pdf
- 重音检测提升预训练自动语音识别.pdf
- ACM 多媒体大奖挑战赛之 ENT 内镜分析.pdf
- 利用冻结的大型语言模型增强对话标注中的说话人特征.pdf
- 评估由 LLM 引导的反思对交互式 AI 生成教育播客学习成果的影响.pdf
- PA-RNet: 鲁棒感知推理网络用于多模态时间序列预测.pdf
- 一个基础的多模态模型用于少量样本学习.pdf
- 边缘辅助的多用户个性化人工智能生成内容 (AIGC)协作微调.pdf
- 2025广东韶关市住房和城乡建设管理局下属事业单位选聘1人备考题库附答案.docx
- 2025年襄城县财政局下属事业单位招聘笔试模拟试题附答案.docx
- 2025年阜新蒙古族自治县民政局下属事业单位招聘笔试模拟试题附答案.docx
- 2025年衡山县科技局下属事业单位招聘笔试模拟试题附答案.docx
- 2025年维西县市场监管局下属事业单位招聘笔试模拟试题附答案.docx
- 2025年索县城管局下属事业单位招聘笔试参考题库附答案.docx
- 2025年蒙山县文化局下属单位招聘备考题库附答案.docx
- 2025年都昌县公安局下属单位招聘备考题库附答案.docx
- 2025广东省特种设备检测研究院湛江检测院招聘6人(第二批)参考题库必威体育精装版.docx
- 2025年那坡县市场监管局下属事业单位招聘笔试模拟试题附答案.docx
- 专业Latex文档翻译 + 关注
-
实名认证服务提供商
专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。
有哪些信誉好的足球投注网站
文档评论(0)