采样决策-计算机科学-生成式人工智能-机器学习-算法.pdf

下载文档

0
0
约2.3万字
约 10页
2025-07-28 发布于中国
举报
版权申诉
保障服务

采样决策-计算机科学-生成式人工智能-机器学习-算法.pdf

1、本文档共10页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

采样决策

121

MichaelChertkov,SungsooAhn,andHamidrezaBehjoo

1PrograminAppliedMathematicsandDepartmentofMathematics,UniversityofArizona,

Tucson,AZ,chertkov@,hamidreza.behjoo@

2GraduateSchoolofAIatKAIST,RepublicofKorea,sungsoo.ahn@kaist.ac.kr

摘要

本在本手稿中，我们介绍了一种新颖的决策流（DF）框架，用于从目标分布中采样决策，并结合来自先前

译抽样的额外指导。DF可以被视为随机最优控制中的马尔可夫决策过程（MDP）方法的一种由AI驱动的算

中法性重生。它扩展了连续空间、连续时间路径积分扩散采样技术[1]到离散时间和空间，同时也推广了生成

流网络（GFN）框架[2]。在其最基本的形式中，一种不需要神经网络（NNs）的显式公式，DF利用底层

2MDP[3]的线性可解性来调整先前抽样的转移概率。所得马尔可夫过程表示为反向时间格林函数与目标分布

9的卷积。我们通过一个从伊辛模型–将DF与Metropolis–Hastings进行比较以量化其效率中采样的示例

4说明了DF框架，讨论了潜在的基于NN的扩展，并概述了如何在各种应用中提升引导抽样。

.1设置舞台

5生成式人工智能（Gen-AI）的总体目标是从通过真实数据（GT数据）表示的概率分布中生成样本。一

:个典型的Gen-AI模型从GT样本建立该分布的确切表示；例如，扩散模型将得分函数编码为对GT数据的

i求和。近期的例子包括迭代去噪能量匹配（iDEM）[4]和谐波路径积分扩散（H-PID）[1]算法。在某些情况

r下，特别是H-PID，仅基于GT的得分就足以生成新的样本，而无需神经网络（NNs）；而在其他情况（例

a如iDEM），则后续训练一个神经替代模型。

除了生成建模之外，iDEM和H-PID还解决了一个经典的统计任务：从目标GibbsBoltzmann分布

p(σ)∝e−E(σ),(1)

中抽取独立同分布（i.i.d.）样本σ，其中E是一个已知的能量函数，除了一个加性常数。经典的方法是马尔

可夫链蒙特卡洛(MCMC)方法。生成流网络（GFNs）[2]在离散时间设置中解决了相同的吉布斯采样目标，

自回归地在一个有向无环图上增长轨迹∅=s0→...→sT=σ，同时允许每个动作依赖于整个部分历史。

本文的简要概述。决策流（DF）保留了GFN的顺序增长直觉，同时添加了一个闭式校正，使得每条轨

迹都与任意目标分布完全一致。此外，DF可以利用启发式增长策略来引导轨迹，同时仍然能够证明性地精

确纠正策略。我们设想DF作为一款即插即用引擎，特别适用于改进现代生成AI流水线——扩散模型和自

回归变换器——这依赖于快速准确的目标分布采样。

我们的贡献:(i)我们将[3]的线性可解MDP理论扩展到随时间增长的状态空间，并推导出一个明确的

解决方案–定理1，这是我们主要结果，在第3节中陈述；(ii)我们重新解释该解决方案为一种通用的、解

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

采样决策-计算机科学-生成式人工智能-机器学习-算法.pdf