余弦调度对于掩码离散扩散模型是 Fisher-Rao 最优的.pdfVIP

余弦调度对于掩码离散扩散模型是 Fisher-Rao 最优的.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

Preprint1–7,2025

余弦调度对于掩码离散扩散模型是Fisher-Rao最优的

LeoZhangleo.zhang@stx.ox.ac.uk

UniversityofOxford

Abstract

在这项工作中,我们研究了从掩码离散扩散模型中采样时选择离散化计划的问题,具体涉及到由此产

生的概率路径的信息几何。特别地,我们证明了在Fisher-Rao几何下的最优计划恢复了常用的余弦

计划。

Keywords:离散扩散模型,信息几何。

本1.介绍

中现代生成模型,如扩散和流式模型(Songetal.,2020;Lipmanetal.,2022;Albergoetal.,

2023),通过动力学过程的数值模拟来生成样本。例如,从连续扩散模型中采样需要模拟由学习

1

v到的分数函数参数化的时间反向SDE。因此,离散化方案的选择对于生成高质量样本至关重要。

4

8虽然在连续生成模型(Watsonetal.,2021;SantosandLin,2023;Sabouretal.,2024;

8Williamsetal.,2024)的背景下,选择最优离散化计划的问题已经被广泛研究过,但是对于离

4

0散扩散(Austinetal.,2021;Campbelletal.,2022;Shietal.,2024;Sahooetal.,2024),这个

.

8问题的兴趣正在增长(Parketal.,2024)。这里,这类模型的基础动态过程是由一些前向腐败过

0

5程(离散)数据构建的连续时间马尔可夫链(CTMC)(DelMoralandPenev,2017);然后通过

2模拟学习到的时间反转CTMC的近似值来生成样本。前向腐败过程的常见选择包括蒙面离散

:

v扩散(Shietal.,2024;Sahooetal.,2024)和均匀离散扩散(Sahooetal.,2025)。

i

x在这项工作中,我们从信息几何的角度研究了掩码离散扩散模型的离散化时间表的选择

r

a

(Amari,2016)。特别地,我们展示了掩码离散扩散的概率结构允许以闭合形式计算由此产生

的概率路径的费雪-劳氏度量。反过来,这使我们能够根据该路径的费雪-劳氏几何导出最优时

间表——即在此几何下的测地线,遵循Syedetal.(2022);Williamsetal.(2024);Syedetal.

(2024)的方法。有趣的是,我们发现最优时间表恢复到了广泛使用的余弦时间表(Nicholand

Dhariwal,2021)。

2.背景

掩码离散扩散使用Shietal.(2024)的记法,我们考虑带有和的遮罩随机过

程,其中每个表示中的一个离散标记;特别地,我

们取来表示特殊“masked”状态。前向加噪过程由下式给出:

Cat

©

文档评论(0)

专业Latex文档翻译 + 关注
实名认证
服务提供商

专业Latex文档翻译,完整保持文档排版,完美处理文档中的数学公式和图表等元素,并提供 arXiv Latex 论文中文翻译。

1亿VIP精品文档

相关文档