税算基准:在税收计算任务上评估前沿模型-计算机科学-人工智能-税收计算-大语言模型.pdf

税算基准:在税收计算任务上评估前沿模型-计算机科学-人工智能-税收计算-大语言模型.pdf

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

税算基准:在税收计算任务上评估前沿模型

MichaelR.BockKaraMoliseeZacharyOzerSumitShah

ColumnTax

Abstract

本人工智能能帮你报税吗?还不能。计算美国个人所得税是一项需要理解大量

译英文文本并利用这些知识仔细计算结果的任务。我们提出了TaxCalcBench,

这是一个用于评估模型在给定所有必要信息的情况下计算个人所得税申报

中表能力的基准。我们的实验表明,最先进的模型在这个简化的样本集上成功

1计算出不到三分之一的联邦所得税申报表。我们的分析得出结论,模型一贯

v错误使用税表、在税收计算中犯错并错误确定资格。我们的研究结果指出了

6

2将大语言模型应用于个人所得税计算任务需要额外基础设施的需求。

1

6

1

.

7

0

5

2

:

v

i

x

r

a

1介绍

大语言模型在过去一年中由于通过强化学习改进了推理能力,在编程和数学任务方面变得越

来越强大。这种在编码、数学和推理能力上的提升体现在前沿模型在AIME、LiveCodeBench、

AiderPolyglot、SWE-benchVerified和TAU-bench等基准测试中的性能改善上。虽然税收计

代码和数据:/column-tax/tax-calc-bench。

Preprint.Underreview.

算已被用于有趣的大型语言模型演示[1],但我们尚未看到对大型语言模型进行正式的税收

计算能力测试。

在这篇论文中,我们描述了税务计算和申报任务,以及我们为此任务创建的TaxCalcBench基

准测试模型的方法,该基准是如何构建的,以及必威体育精装版前沿模型在此任务上的测试结果。

报税是一项一年一度的个人财务数据收集工作。一旦你收集了所有信息,你(或你的会计师)

会准备并输入这些信息到报税软件中。在这背后,报税软件有一个“税务引擎”来计算收入、

应纳税额、抵免等,这些都是构成你的税务申报的内容。

TaxCalcBench旨在评估模型在第三项也是最后一项任务上的性能:税款计算。Tax-

CalcBench是一系列51个测试用例,代表了个人所得税申报的适度范围。这些测

试用例包括计算税单所需的一整套用户输入以及传统税务引擎期望输出的正确结

果。TaxCalcBench的2024纳税年度(TY24)版本包含了一组仅代表部分美国人税收

情况的联邦税务申报。

我们的实验表明,前沿模型无法可靠地计算税款。即使是最优秀的模型也只能

´

正确计算不到三分之一的回报。当使用一个允许税费或退税额相差s5美元(尽

管在税收计算中不允许这样做,但仍然有趣)的较低精度评估标准时,在总体

基础上,模型能够将正确计算的回报提高15-20%。

我们的分析发现模型一致使用错误的税表、计算错误,并且错误地确定资格,导致整体上计

算出的纳税申报表不正确。

我们的研究结果表明,仍需确定性税款计算引擎以确保准确性,并且需要额外的基础设施和

编排来增强LLMs,以便能够可靠地计算报税。

2背景:税收计算任务

纳税申报包含三个主要子任务:

1.文档集合:收集所有需要归档的文件(例如W-2s)。

2.准备:将收集到的所有信息输入税务准备软件。

3.计算:将输入的信息转换为完整的纳税申报表(表1040,针对个人所得税)以供

提交。

该基准仅专注于(3)计算。

到目前为止,公司已经构

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档