SpecMaskFoley: 通过 ControlNet 引导预训练的频谱掩码生成变换器实现同步视频到音频的合成-计算机科学-音频生成-视频生成.pdf

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

SpecMaskFoley:通过ControlNet引导预训练的频谱掩码生成变换器实

现同步视频到音频的合成

ZhiZhong,AkiraTakahashi,ShuyangCui,KeisukeToyama,ShusukeTakahashi,YukiMitsufuji

SonyGroupCorporation,JapanSonyAI,USA

摘要—Foley合成旨在合成与视频帧在语义和时间上对齐的高质量DeSyncvs.FAD

音频。鉴于其在创意产业中的广泛应用，该任务已引起研究界越来越多的1.3V2AMapperFoleyCrafter

SeeingHearing

关注。为了避免从头开始训练音频生成模型这一非平凡的任务，将预训1.2VATT

练的音频生成模型适应于视频同步Foley合成成为一个吸引人的方向。1.1ReWaS

ControlNet是一种向预训练生成模型添加细粒度控制的方法，已被应

用于Foley合成，但其使用仅限于手工制作的人可读的时间条件。相比1

之下，从头开始的模型通过利用预训练视频编码器提取的高维深层特征n0.9Frieren

取得了成功。我们观察到基于ControlNet和从头开始的Foley模型之e

D0.8

间的性能差距。为缩小这一差距，我们提出SpecMaskFoley方法，该SpecMaskFoley(ours)

本方法通过ControlNet引导预训练的SpecMaskGIT模型朝向视频同步0.7V-AURA

Foley合成。为了释放单个ControlNet分支的潜力，我们解决了时间视0.6Methods

频特征与预训练SpecMaskGIT的时频性质之间的差异，通过一个频率0.5LatentAdaptationAlignment

译MMAudio-16kHzFromScratchTraining

感知的时间特征对齐器，消除了广泛用于先前技术中的复杂条件机制的ControlNet

该用户很懒，什么也没介绍

咨询Ta 进入空间

更多 >