SpecMaskFoley: 通过 ControlNet 引导预训练的频谱掩码生成变换器实现同步视频到音频的合成-计算机科学-音频生成-视频生成.pdf

SpecMaskFoley: 通过 ControlNet 引导预训练的频谱掩码生成变换器实现同步视频到音频的合成-计算机科学-音频生成-视频生成.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

SpecMaskFoley:通过ControlNet引导预训练的频谱掩码生成变换器实

现同步视频到音频的合成

ZhiZhong,AkiraTakahashi,ShuyangCui,KeisukeToyama,ShusukeTakahashi,YukiMitsufuji

SonyGroupCorporation,JapanSonyAI,USA

摘要—Foley合成旨在合成与视频帧在语义和时间上对齐的高质量DeSyncvs.FAD

音频。鉴于其在创意产业中的广泛应用,该任务已引起研究界越来越多的1.3V2AMapperFoleyCrafter

SeeingHearing

关注。为了避免从头开始训练音频生成模型这一非平凡的任务,将预训1.2VATT

练的音频生成模型适应于视频同步Foley合成成为一个吸引人的方向。1.1ReWaS

ControlNet是一种向预训练生成模型添加细粒度控制的方法,已被应

用于Foley合成,但其使用仅限于手工制作的人可读的时间条件。相比1

c

之下,从头开始的模型通过利用预训练视频编码器提取的高维深层特征n0.9Frieren

y

S

取得了成功。我们观察到基于ControlNet和从头开始的Foley模型之e

D0.8

间的性能差距。为缩小这一差距,我们提出SpecMaskFoley方法,该SpecMaskFoley(ours)

本方法通过ControlNet引导预训练的SpecMaskGIT模型朝向视频同步0.7V-AURA

Foley合成。为了释放单个ControlNet分支的潜力,我们解决了时间视0.6Methods

频特征与预训练SpecMaskGIT的时频性质之间的差异,通过一个频率0.5LatentAdaptationAlignment

译MMAudio-16kHzFromScratchTraining

感知的时间特征对齐器,消除了广泛用于先前技术中的复杂条件机制的ControlNet

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档