- 1、本文档共22页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
税算基准:在税收计算任务上评估前沿模型
MichaelR.BockKaraMoliseeZacharyOzerSumitShah
ColumnTax
Abstract
本人工智能能帮你报税吗?还不能。计算美国个人所得税是一项需要理解大量
译英文文本并利用这些知识仔细计算结果的任务。我们提出了TaxCalcBench,
这是一个用于评估模型在给定所有必要信息的情况下计算个人所得税申报
中表能力的基准。我们的实验表明,最先进的模型在这个简化的样本集上成功
1计算出不到三分之一的联邦所得税申报表。我们的分析得出结论,模型一贯
v错误使用税表、在税收计算中犯错并错误确定资格。我们的研究结果指出了
6
2将大语言模型应用于个人所得税计算任务需要额外基础设施的需求。
1
6
1
.
7
0
5
2
:
v
i
x
r
a
1介绍
大语言模型在过去一年中由于通过强化学习改进了推理能力,在编程和数学任务方面变得越
来越强大。这种在编码、数学和推理能力上的提升体现在前沿模型在AIME、LiveCodeBench、
AiderPolyglot、SWE-benchVerified和TAU-bench等基准测试中的性能改善上。虽然税收计
代码和数据:/column-tax/tax-calc-bench。
Preprint.Underreview.
算已被用于有趣的大型语言模型演示[1],但我们尚未看到对大型语言模型进行正式的税收
计算能力测试。
在这篇论文中,我们描述了税务计算和申报任务,以及我们为此任务创建的TaxCalcBench基
准测试模型的方法,该基准是如何构建的,以及必威体育精装版前沿模型在此任务上的测试结果。
报税是一项一年一度的个人财务数据收集工作。一旦你收集了所有信息,你(或你的会计师)
会准备并输入这些信息到报税软件中。在这背后,报税软件有一个“税务引擎”来计算收入、
应纳税额、抵免等,这些都是构成你的税务申报的内容。
TaxCalcBench旨在评估模型在第三项也是最后一项任务上的性能:税款计算。Tax-
CalcBench是一系列51个测试用例,代表了个人所得税申报的适度范围。这些测
试用例包括计算税单所需的一整套用户输入以及传统税务引擎期望输出的正确结
果。TaxCalcBench的2024纳税年度(TY24)版本包含了一组仅代表部分美国人税收
情况的联邦税务申报。
我们的实验表明,前沿模型无法可靠地计算税款。即使是最优秀的模型也只能
´
正确计算不到三分之一的回报。当使用一个允许税费或退税额相差s5美元(尽
管在税收计算中不允许这样做,但仍然有趣)的较低精度评估标准时,在总体
基础上,模型能够将正确计算的回报提高15-20%。
我们的分析发现模型一致使用错误的税表、计算错误,并且错误地确定资格,导致整体上计
算出的纳税申报表不正确。
我们的研究结果表明,仍需确定性税款计算引擎以确保准确性,并且需要额外的基础设施和
编排来增强LLMs,以便能够可靠地计算报税。
2背景:税收计算任务
纳税申报包含三个主要子任务:
1.文档集合:收集所有需要归档的文件(例如W-2s)。
2.准备:将收集到的所有信息输入税务准备软件。
3.计算:将输入的信息转换为完整的纳税申报表(表1040,针对个人所得税)以供
提交。
该基准仅专注于(3)计算。
到目前为止,公司已经构
您可能关注的文档
- SpeLLM: 字符级多头解码-计算机科学-机器学习-大语言模型.pdf
- 通过闵可夫斯基范数进行语言检测:利用字符双字母组合和频率分析识别语言-计算机科学-机器学习-语言检测-统计语言识别-自然语言处理.pdf
- 从合同到代码:使用多层次有限状态机自动化智能合约生成-计算机科学-区块链-智能合约-代码生成.pdf
- 边缘情况合成用于鱼眼物体检测:数据为中心的视角-计算机科学-边缘AI -图像生成模型-鱼眼对象检测.pdf
- eX-NIDS:利用大型语言模型的可解释网络入侵检测框架-计算机科学-大语言模型-网络入侵检测系统.pdf
- LLM 增强的重新排序用于互补产品推荐-计算机科学-大语言模型-图神经网络-机器学习.pdf
- 基于图的双曲率结构设计算法分析及平面六边形面板的制造-计算机科学-计算设计-生成算法-平面化制造.pdf
- 使用史瓦西度量进行黑洞图像的并行光线追踪-计算机科学-并行编程-数学近似.pdf
- 可穿戴设备的设计与优化以收集人体运动能量-计算机科学-人工智能-可穿戴电子设备.pdf
- Nd3+ 掺杂诱导的高温下 0.7BiFeO3-0.3BaTiO3 无铅压电陶瓷漏电流抑制-计算机科学-铁电极化.pdf
- 2025中国冶金地质总局所属在京单位高校毕业生招聘23人笔试参考题库附带答案详解.doc
- 2025年01月中国人民大学文学院公开招聘1人笔试历年典型考题(历年真题考点)解题思路附带答案详解.doc
- 2024黑龙江省农业投资集团有限公司权属企业市场化选聘10人笔试参考题库附带答案详解.pdf
- 2025汇明光电秋招提前批开启笔试参考题库附带答案详解.pdf
- 2024中国能建葛洲坝集团审计部公开招聘1人笔试参考题库附带答案详解.pdf
- 2024吉林省水工局集团竞聘上岗7人笔试参考题库附带答案详解.pdf
- 2024首发(河北)物流有限公司公开招聘工作人员笔试参考题库附带答案详解.pdf
- 2023国家电投海南公司所属单位社会招聘笔试参考题库附带答案详解.pdf
- 2024湖南怀化会同县供水有限责任公司招聘9人笔试参考题库附带答案详解.pdf
- 2025上海烟草机械有限责任公司招聘22人笔试参考题库附带答案详解.pdf
文档评论(0)