采样决策-计算机科学-生成式人工智能-机器学习-算法.pdf

采样决策-计算机科学-生成式人工智能-机器学习-算法.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

采样决策

121

MichaelChertkov,SungsooAhn,andHamidrezaBehjoo

1PrograminAppliedMathematicsandDepartmentofMathematics,UniversityofArizona,

Tucson,AZ,chertkov@,hamidreza.behjoo@

2GraduateSchoolofAIatKAIST,RepublicofKorea,sungsoo.ahn@kaist.ac.kr

摘要

本在本手稿中,我们介绍了一种新颖的决策流(DF)框架,用于从目标分布中采样决策,并结合来自先前

译抽样的额外指导。DF可以被视为随机最优控制中的马尔可夫决策过程(MDP)方法的一种由AI驱动的算

中法性重生。它扩展了连续空间、连续时间路径积分扩散采样技术[1]到离散时间和空间,同时也推广了生成

流网络(GFN)框架[2]。在其最基本的形式中,一种不需要神经网络(NNs)的显式公式,DF利用底层

2MDP[3]的线性可解性来调整先前抽样的转移概率。所得马尔可夫过程表示为反向时间格林函数与目标分布

v

9的卷积。我们通过一个从伊辛模型–将DF与Metropolis–Hastings进行比较以量化其效率中采样的示例

4说明了DF框架,讨论了潜在的基于NN的扩展,并概述了如何在各种应用中提升引导抽样。

5

4

1

.1设置舞台

3

0

5生成式人工智能(Gen-AI)的总体目标是从通过真实数据(GT数据)表示的概率分布中生成样本。一

2

:个典型的Gen-AI模型从GT样本建立该分布的确切表示;例如,扩散模型将得分函数编码为对GT数据的

v

i求和。近期的例子包括迭代去噪能量匹配(iDEM)[4]和谐波路径积分扩散(H-PID)[1]算法。在某些情况

x

r下,特别是H-PID,仅基于GT的得分就足以生成新的样本,而无需神经网络(NNs);而在其他情况(例

a如iDEM),则后续训练一个神经替代模型。

除了生成建模之外,iDEM和H-PID还解决了一个经典的统计任务:从目标GibbsBoltzmann分布

p(σ)∝e−E(σ),(1)

中抽取独立同分布(i.i.d.)样本σ,其中E是一个已知的能量函数,除了一个加性常数。经典的方法是马尔

可夫链蒙特卡洛(MCMC)方法。生成流网络(GFNs)[2]在离散时间设置中解决了相同的吉布斯采样目标,

自回归地在一个有向无环图上增长轨迹∅=s0→...→sT=σ,同时允许每个动作依赖于整个部分历史。

本文的简要概述。决策流(DF)保留了GFN的顺序增长直觉,同时添加了一个闭式校正,使得每条轨

迹都与任意目标分布完全一致。此外,DF可以利用启发式增长策略来引导轨迹,同时仍然能够证明性地精

确纠正策略。我们设想DF作为一款即插即用引擎,特别适用于改进现代生成AI流水线——扩散模型和自

回归变换器——这依赖于快速准确的目标分布采样。

我们的贡献:(i)我们将[3]的线性可解MDP理论扩展到随时间增长的状态空间,并推导出一个明确的

解决方案–定理1,这是我们主要结果,在第3节中陈述;(ii)我们重新解释该解决方案为一种通用的、解

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档