- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DiViD:解耦视频扩散用于静态-动态因子分解
MarziehGheisariAugusteGenovesio
ÉcoleNormaleSupérieurePSL,Paris,France
{marzieh.gheisari,auguste.genovesio}@ens.psl.eu
Abstract测、检索、可解释性和具有风格转换的合成视频生成)
非常有益。本工作特别关注无监督的顺序解缠[23–25],
无监督地在视频中分离静态外观和动态运动仍然是一与静态解缠[4,9,14,19,20,27,29,32]不同,它必须
本个基本挑战,通常受到现有VAE-和GAN-based方法利用视频数据内在的时间结构来提高因子分离和时间
中的信息泄露和模糊重构的阻碍。我们介绍了分割,这一致性。
译是第一个用于显式静态—动态因子分解的端到端视频大多数以前的顺序解缠方法都建立在变分自编码
中扩散框架。DiViD的序列编码器从第一帧中提取全局器(VAEs)及其动态扩展[1,3,21]的基础上。虽然VAE
1静态标记和每帧的动态令牌,明确地将静态内容从运是能够通过适当的正则化学习解缠表示的深度生成概
v动代码中移除。它的条件DDPM解码器结合了三个关率模型,但在序列设置中它们面临多个挑战:
4
3键归纳偏差:一个用于时间一致性的共享噪声调度方•信息泄露。在整个输入序列上对静态和动态因素进
9
3案,在早期时间步长收紧(压缩静态信息)并在后期放行条件化,通常会使动态代码捕获静态信息(反之
1.松(丰富动态)的时变KL基瓶颈,以及将全局静态令亦然),导致解缠不良。先前的补救措施——例如减
7牌路由到所有帧同时保持动态令牌特定于每一帧的交少动态潜在维度或添加辅助互信息损失——往往会
0
5叉注意力。正交化正则项进一步防止残留的静态—动妥协动态表现力,通过多个损失项使训练复杂化,并
2态泄漏。表现出对超参数的敏感性。
:
v我们在现实世界的基准上使用基于交换的准确性•重建质量。变分自编码器(VAEs)在处理复杂的真
i
x和交叉泄漏指标来评估DiViD。DiViD在最先进的顺实世界数据时,经常生成模糊的输出。提高重建清
r
a序解缠方法中表现最佳:它实现了最高的基于交换的晰度的技术通常引入层次化的潜在空间,这可能会
联合准确性,保持了静态保真度同时提高了动态转移,阻碍解缠。
并减少了平均交叉泄漏。•正则化不足。经验研究表明,仅依赖通用正则化器
是不够的。有效的解缠通常需要在模型架构和训练
程序中明确包含归纳偏置。
1.介绍
基于GAN的方法已经融入了正则化以鼓励分离
表示学习领域在无监督分解中面临一个基本挑战,特征学习,但它们的分离能力仍不尽如人意,并且使
旨在将输入数据分解为其潜在的变化因素。此方法对于用GAN进行无监督的分离表示学习仍然非常具有挑
通过增强可解释性、一般性和可控性[2,7,17,18,
您可能关注的文档
- 基于线性参照系统地图和 OpenStreetMap 的自动化路线对齐使用开源工具-计算机科学-机器学习-智能交通管理系统.pdf
- 从大规模远程信息技术数据中提取见解以应用于智能交通系统:经验与建议-计算机科学-机器学习-智能交通管理系统.pdf
- 关于通过 HAPS 和主动 RIS 技术的融合在总速率和能源效率之间的权衡-计算机科学-可重构智能表面-机器学习.pdf
- 带有通配符的量子模式匹配-计算机科学-机器学习-模式匹配-量子算法.pdf
- 优化加泰罗尼亚语-西班牙语代码切换的 ASR:方法论比较分析-计算机科学-代码切换-语音增强-语音识别.pdf
- 大型语言模型作为创新者:利用潜在空间探索发现新颖性的框架-计算机科学-大语言模型-人工智能-创意生成.pdf
- 基于梯度模型预测控制和控制屏障函数的安全高效控制器合成-计算机科学-机器学习-最优控制.pdf
- Unit 3 Be a Nice Person Lesson 9 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 2 Be Good Friends Lesson 8 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 3 Be a Nice Person Lesson 10 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 6 Get Close to Nauture Lesson 22 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 23 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 2025食品饮料行业AI转型白皮书-2025食品饮料行业数智化转型领先实践.pdf
- Unit 7 Be Together Lesson 24 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 25 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 26 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 2025年广州体育职业技术学院单招职业倾向性考试题库完美版.docx
- 软件公司员工考勤异常处理.doc
- 2025年土地登记代理人之土地登记相关法律知识题库500道及完整答案【有一套】.docx
- 2025年四平职业大学单招职业适应性考试题库含答案.docx
最近下载
- IPC-2221C-EN TOC2023印制版设计通用标准 Generic Standard on Printed Board Design.pdf VIP
- 2022-2023新版人教版初中九年级化学上册(全册)课件.ppt
- 人教版物理九年级全册分层作业设计.doc
- 九上语文必背内容.docx VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 人教版初中九年级化学下册全册完整课件.ppt VIP
- 新高考语文64篇古诗文理解性默写汇编(含答案).docx VIP
- 物流工作流程及出入庫管理流程图.doc VIP
- 危化品安全数据表.doc VIP
- 丰田沟通技巧报联商培训讲义.pptx VIP
文档评论(0)