评审科学论文中的关键问题与推理 LLM:基线方法和自动评估-计算机科学-大语言模型-科学论文.pdfVIP

评审科学论文中的关键问题与推理 LLM:基线方法和自动评估-计算机科学-大语言模型-科学论文.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

评审科学论文中的关键问题与推理LLM:基线方法和自动评估

TianmaiM.ZhangNeilF.Abernethy

UniversityofWashington

{tianmai,neila}@

Abstract的同行评审过程,但不负责任使用LLM生成

的审稿意见可能会严重削弱对长期存在的同行

近期大型语言模型的进步引发了人们利用

本它们来帮助解决同行评审危机中科学出版评审流程及出版商信誉的信任。

译物的同行评审过程的兴趣。然而,让AI模几项研究正式探讨并评估了LLM生成的

型以与人类审稿人相同的方式生成完整的评论的质量。Liangetal.(2024)早期的一项研

中评论可能会加剧LLM生成评论的不负责任

究表明,GPT生成的评论与人类评论之间存在

2使用。作为替代方案,我们提议采用LLMs

v大量重叠,并且参与者报告称GPT生成的反馈

4作为手稿质量检查器。我们介绍了几种基

是有帮助的。后来的研究(Duetal.,2024;Zhou

2线方法和一个可扩展的自动评估框架,该

8etal.,2024;Shinetal.,2025)表明,LLM生成的

3框架利用顶级推理LLMs作为评判者来解

2.决招募领域专家进行人工评估的困难。通评论存在缺陷,例如肤浅的评论以及缺乏批评

5过使用从arXiv撤回的论文,我们验证了我或新颖性评估。其他研究(D’Arcyetal.,2024;

0

5们的建议方法,并使用多个供应商提供的Gaoetal.,2024;Taechoyotinetal.,2024;Tanetal.,

2几款领先的推理LLM对其性能以及识别科

:2024;Tyseretal.,2024;Yuetal.,2024;Zhuetal.,

v学论文中的关键错误和不合理问题的API

i2025)开发了技术方法来改进LLM生成的评

x成本进行了评估。o3在所有模型中表现出

r论。然而,所有这些研究都集中在LLM像人

a了最佳的问题识别性能,并且成本适中。本

文提供了基于文档的科学研究/推理方面的类评论者那样生成完整评论的情景上,这可能

见解,并为未来应用奠定了基础。我们的加剧不负责任地使用LLM生成的评论的风险。

数据集、代码和模型输出公开可用。在这些研究中最常见的评估方法是将LLM生

成的评论与人类评论进行比较,无论是手动还

1介绍

是计算。

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档