ZETA:结合 RIEMANN ZETA 缩放与 ADAM 的混合优化器以实现稳健的深度学习.pdfVIP

ZETA:结合 RIEMANN ZETA 缩放与 ADAM 的混合优化器以实现稳健的深度学习.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

ZETA:结合RIEMANNZETA缩放与ADAM的混合优化器以实

现稳健的深度学习

SamikshaBC

DepartmentofComputerScience

IndianaUniversitySouthBend

samibc@iu.edu

本2025年8月7日

译ABSTRACT

1本工作介绍了ZetA,一种结合了Adam的自适应梯度更新和受黎曼函数启发的动态缩放

v机制的新颖深度学习优化器。据我们所知,ZetA是首个将基于zeta函数的梯度缩放整合到

9

1深度学习优化中的优化器。它通过集成自适应阻尼、基于余弦相似性的动量增强、熵正则化

7损失以及类似Sharpness-AwareMinimization(SAM)的扰动方法的混合更新机制来提升泛化

2和鲁棒性。在SVHN、CIFAR10、CIFAR100、STL10和噪声CIFAR10上的经验评估表明,与

0

.Adam相比,测试准确率有所提高。实验采用轻量级全连接网络,在混合精度设置下训练五

8

0个周期。这些结果表明,ZetA是一种计算效率高且鲁棒的替代优化器,特别是在有噪声或高

5粒度分类任务中特别有效。

2

:

v

i

x1介绍

r

a

现代深度学习应用需要能够在快速收敛与对噪声和过拟合的鲁棒性之间取得平衡的优化器,这是现实世界部

署中的关键挑战。Adam是一种广泛使用的优化器,以其自适应学习率和基于动量的更新而闻名,已成为现

代深度学习的基础工具。然而,在嘈杂或不确定的情况下,它经常难以校准且泛化效果不佳。

为了解决这些限制,我们引入了ZetA,这是一种新颖的优化器,它通过受解析数论启发的动态缩放机制扩展

了Adam,特别是黎曼函数。通过将基于的梯度调制与熵正则化和感知锐度训练相结合,ZetA在一系列

具有挑战性的数据集上提供了更好的稳定性、不确定性处理和泛化能力。

2相关工作

深度学习中的优化方法随着自适应方法的出现取得了显著进展,特别是Adam[1],它将动量与每个参数的学

习率自适应相结合,提高了在各种任务上的收敛速度。尽管广泛采用,但Adam经常收敛到尖锐极小值,导

致泛化性能不佳,尤其是在噪声或过参数化的场景中,此时校准和鲁棒性至关重要。为了缓解这些问题,已

经开发了几种扩展方法:RAdam在初始训练阶段稳定自适应学习率的方差,而AdaBelief[2]改进了二阶矩估

计以更好地与梯度“信念”对齐,有助于收敛到更平坦的极小值从而提高泛化性能。

APREPRINT-2025年8月7日

锐化感知最小化(SAM)[3]通过明确针对损失景观中的低锐度解提供了互补的方法。SAM在下降之前沿梯

度上升方向扰动权重,引导网络趋向于宽且平坦的极小值,从而增强泛化能力和对扰动的鲁棒性。然而,这些

进展主要依赖于启发式或经验得出的学习动态调度,缺乏基于具有已证明收敛性质的数学函数的理论基础。

这一差距促使我们开展工作,因为现有的优化器尚未探索黎曼函数等函数在动态更新缩放方面的潜力。我

们提出的ZetA优化器通过开创一种混合方法填补了这一空白,无缝融合基于的梯度调制(利用其分析收

敛行为)与Adam的自适应优势,并辅以熵正则化和受SAM启发的技术。这个理论驱动的框架旨在解决当

前方法的局限性,为具有挑战

您可能关注的文档

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档