深度强化学习双来源库存管理及对供应和产能风险的意识-计算机科学-深度强化学习-大规模随机优化-供应链管理.pdfVIP

深度强化学习双来源库存管理及对供应和产能风险的意识-计算机科学-深度强化学习-大规模随机优化-供应链管理.pdf

  1. 1、本文档共12页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

深度强化学习双来源库存管理及对供应和产能风险的

意识

FengLiuYingLiuCarsonEisenach

liudef@liuyingy@ceisen@

Abstract

在这项工作中,我们研究了如何通过利用干预模型来高效地将强化学习

本(RL)应用于解决大规模随机优化问题。所提出的方法的关键在于通过使用

译预训练的深度学习(DL)模型模拟和组合随机过程来更好地探索解空间。我

中们在一个具有挑战性的实际应用中展示了我们的方法,即供应链优化中的多

来源多时期库存管理问题。具体来说,我们采用深度RL模型在一系列假设

1

v下学习和预测随机供应链过程。此外,我们还引入了一个约束协调机制,旨

6在预测给定库存网络交叉产品约束下的对偶成本。我们强调的是,与直接将

4复杂的物理约束建模到RL优化问题中并作为整体解决随机问题相比,我们

4

4的方法将那些供应链流程分解为可扩展和组合的DL模块,从而在大规模实

1际数据集上实现了更好的性能。我们也概述了未来研究中的开放性问题,以

.

7进一步探究此类模型的有效性。

0

5

2

:

v

i

x1介绍

r

a

现代零售供应链(如沃尔玛和亚马逊)中的库存管理系统通常采用多来源采购策略,该系统

结合了准时制(JIT)订购策略和其他专门策略,旨在在所有产品中实现供应短缺与库存健康

之间的平衡,同时不影响库存管理对整体零售服务的贡献。

在现实世界的供应链中,订单数量会受到几个后处理程序的影响,包括为了满足供应商约束

(如最小订单量和批量大小限制)而进行的修改。其次,供应可能是不可靠的,供应商可能

只部分完成他们收到的订单。这种情况可能发生的原因有很多,包括供应商本身缺货。在文

献中,零售商最终接收到的原始订单数量的比例被称为产量或补给率。目前的状态下,没有

现有的表示模型来学习这些外部过程。

另一方面,无论是网络入口容量还是存储容量的限制,都需要供应链系统评估应购买哪些库

存以及通过所有采购渠道何时使其到达,以实现有效的容量控制器(CC)。例如,对于即时

采购(JIT),传统的CC机制通常能够模拟和计算每周容量成本,以满足短期展望期内的可

用容量,比如一到三个月。然而,随着现代采购系统的演变,反映了全球供应链日益复杂的

被42国际机器学习大会,扩展干预模型工作坊接受,加拿大温哥华。PMLR267,2025。版权l’

2025作者。

状况以及制造商直接提供的成本折扣的可用性,库存决策需要对未来更长时间进行规划,例

如超过六个月。

这项工作也受到了先前研究(Madekaetal.,2022;Andazetal.,2024;Eisenachetal.,2024)的启

发,这些研究表明深度RL在单货源库存计划问题中的可行性。但是我们通过针对更复杂的

变体来推进这一领域的研究,在这种变体中,存在多渠道供应商,并且主要权衡的是不同供

应商的成本与供应风险之间的平衡。另一方面,我们的目标是研究折扣率对长周期订单、随

时间随机数量到达模式的影响。

这里,我们强调在通过动态规划等传统方法解决多来源库存问题时遇到的一个关键问题是与

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档