- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
SpecMaskFoley:通过ControlNet引导预训练的频谱掩码生成变换器实
现同步视频到音频的合成
ZhiZhong,AkiraTakahashi,ShuyangCui,KeisukeToyama,ShusukeTakahashi,YukiMitsufuji
SonyGroupCorporation,JapanSonyAI,USA
摘要—Foley合成旨在合成与视频帧在语义和时间上对齐的高质量DeSyncvs.FAD
音频。鉴于其在创意产业中的广泛应用,该任务已引起研究界越来越多的1.3V2AMapperFoleyCrafter
SeeingHearing
关注。为了避免从头开始训练音频生成模型这一非平凡的任务,将预训1.2VATT
练的音频生成模型适应于视频同步Foley合成成为一个吸引人的方向。1.1ReWaS
ControlNet是一种向预训练生成模型添加细粒度控制的方法,已被应
用于Foley合成,但其使用仅限于手工制作的人可读的时间条件。相比1
c
之下,从头开始的模型通过利用预训练视频编码器提取的高维深层特征n0.9Frieren
y
S
取得了成功。我们观察到基于ControlNet和从头开始的Foley模型之e
D0.8
间的性能差距。为缩小这一差距,我们提出SpecMaskFoley方法,该SpecMaskFoley(ours)
本方法通过ControlNet引导预训练的SpecMaskGIT模型朝向视频同步0.7V-AURA
Foley合成。为了释放单个ControlNet分支的潜力,我们解决了时间视0.6Methods
频特征与预训练SpecMaskGIT的时频性质之间的差异,通过一个频率0.5LatentAdaptationAlignment
译MMAudio-16kHzFromScratchTraining
感知的时间特征对齐器,消除了广泛用于先前技术中的复杂条件机制的ControlNet
您可能关注的文档
- 具有移动性和时延扩散的信道中的差分通信使用 Zak-OTFS-计算机科学-信道可预测性-时延多普勒调制-差分通信.pdf
- 加速射频功率放大器设计通过智能采样和基于机器学习的参数调整-计算机科学-机器学习-射频功率放大器设计优化.pdf
- WildFX:一个用于野外音频效果图建模的 DAW 驱动管道-计算机科学-AI音乐生成-数字信号处理.pdf
- 实例空间分析的带容量车辆路径问题-计算机科学-机器学习-算法.pdf
- 预编码 Zak-OTFS 用于每载波均衡-计算机科学-机器学习-预编码技术.pdf
- ZonUI-3B:单个消费级 GPU 训练的 30 亿参数 GUI 对齐视觉语言模型-计算机科学-视觉语言模型-图形用户界面定位.pdf
- 无损量子计算通过减少量子比特开销以实现高效的算术运算-计算机科学-机器学习-量子算术-量子哈密顿计算.pdf
- DiffGradCAM: 一种抵抗对抗训练的通用类激活图方法-计算机科学-深度神经网络-可解释性-类激活映射.pdf
- 离散时间双层遗忘 RLS 识别在有限激励下的应用-计算机科学-机器学习-自适应系统-参数识别.pdf
- 动手操作:从连续序列中分割单个符号-计算机科学-连续手语分割-机器学习.pdf
文档评论(0)