- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
DiffRhythm+:带有偏好优化的可控且灵活的
全曲生成
HuakangChen,YuepengJiang,GuobinMa,ChunboHao
ShuaiWang,JixunYao,ZiqianNing,MengMeng,JianLuan,LeiXie
Audio,SpeechandLanguageProcessingLab(ASLP@NPU)
SchoolofIntelligenceScienceandTechnology,NanjingUniversity,Suzhou,China
MiLMPlus,XiaomiInc.
huakang@,lxie@
摘要—歌曲作为音乐艺术的一种核心形式,体现了人类智动地进行音乐创作。这些发展促进了各种应用,如为短
本慧和创造力的丰富性。虽然生成模型领域的近期进展促进了长视频生成个性化音乐、电影配乐、教育工具和治疗实践
译篇幅歌曲创作的进步,但当前用于全曲合成的系统仍面临重[4],[5]。
大挑战,包括数据不平衡、控制不足以及音质不一致等问题。
中音乐生成领域的研究通常涵盖三个主要领域:歌唱
DiffRhythm作为一种基于扩散的开创性模型,在通过生成带
1有表现力的主唱和伴奏的全曲方面推动了该领域的发展。然而,语音合成(SVS)、文本到音乐生成和歌词到歌曲生成。
v
0其性能受到训练数据集不平衡及音乐风格控制有限的限制,导SVS从提供的歌词和乐谱[6]–[10]生成具有表现力的、
9致质量差异显著且创作灵活性受限。为解决这些局限,我们提出类似人类的歌声,支持虚拟歌手、艺术家声音克隆以及
8
2了DiffRhythm+,一种用于可控制和灵活全曲生成的增强扩辅助工具等应用。相比之下,文本到音乐生成根据文本
1散框架。DiffRhythm+利用了一个大幅扩展并平衡的训练数据
.描述、情绪提示或指令[11]–[16]创建乐器音乐。然而,
7集来缓解诸如歌词重复或遗漏等问题,同时促进更丰富音乐技巧
0和表现力的出现。该框架引入了一种多模态风格条件策略,允许当独立使用时,这两种方法都存在固有限制。SVS模型
5用户通过描述性文本和参考音频精确指定音乐风格,从而显著增通常只生成无伴奏的声乐轨道,而文本到音乐系统则生
2
:强创意控制和多样性。我们进一步介绍了直接与用户偏好对齐的成缺乏声乐旋律和歌词的乐器轨道。在现实世界的创作
v
i表现优化方法,引导模型在评估指标上始终输出更受偏好的结中,声乐与伴奏交织在一起以创造出丰富的语义和听觉
x
r果。广泛的实验表明,DiffRhythm+在自然度、编排复杂性和一致性,这对全面的歌曲生成构成了重大挑战。
a
听众满意度方面相较于先前系统取得了显著改进。音频样本可
歌曲生成特别针对这一挑战,通过从原始歌词和风
在https://longwaytog0.github.io/DiffRhythmPlus/获
取。格提示直接合成完整的歌曲(包括人声和乐器)来解
IndexTerms—歌词生成,歌曲创作,扩散模型,多模态,决。当前的方法通常采用基于自回归语言模型(LM)的
偏好优化。方法或基于扩散的技术。基于LM的方法[17]–[21]将歌
您可能关注的文档
- 图 reservoir 中冗余的谱解释-计算机科学-公平算法-图神经网络-算法.pdf
- 提高色素性皮肤病损诊断精度的卷积神经网络案例研究:DermaMNIST 数据集分析-计算机科学-图像分类-卷积神经网络-人工智能.pdf
- 基于深度学习的遥感图像滑坡分类框架-计算机科学-卫星图像-深度学习框架.pdf
- 从颈部到头部:用于头部姿态估计的生物阻抗传感-计算机科学-姿态估计-可穿戴系统.pdf
- DGTJ08-2004A-2014 太阳能热水系统应用技术规程.docx
- DGTJ08-1105-2006 移动通信室内信号覆盖分布系统设计和验收规范.docx
- DGTJ08-2082-2023 土体硬化剂应用技术标准.docx
- DGTJ08-2095-2023 公路技术状况评定标准.docx
- DGTJ08-2104-2022 城市地面公共交通基础设施维护标准.docx
- DGTJ08-1001-2013 岩土工程勘察外业操作规程.docx
- DGTJ08-2024-2007 用户高压电气装置规范.docx
- DGTJ08-1101-2022 城市轨道交通自动售检票系统通用技术标准.docx
- DGTJ08-2025-2020 建筑工程施工现场视频监控系统应用技术标准.docx
- DGTJ08-2096-2022 生态公益林养护标准.docx
- DGTJ08-2024-2016 用户高压电气装置规范.docx
- DB5201_T 161-2025 生活垃圾分类设施设备设置规范.pdf
- DGTJ08-2001-2006 基坑工程施工监测规程.docx
- DGTJ08-2033-2008 道路隧道设计规范.docx
- DGTJ08-1104-2005 公共建筑电磁兼容设计规范.docx
- DGTJ08-2014-2018 液化天然气应急储备调峰站设计标准.docx
最近下载
- DB63∕T 2387-2024 公路路基涎流冰防治技术指南.pdf
- 2025人教版英语四年级上册Unit 1 Helping at home单元测试试卷.pdf VIP
- 等比数列知识点总结与典型例题+答案.docx VIP
- 1、2024广西专业技术人员继续教育公需科目参考答案(98分).pdf VIP
- 配电运维题库题库(392道).docx VIP
- 中华优秀传统文化融入初中英语教学的路径探索.docx VIP
- 2025年生产安全应急演练方案(精选5篇).pdf VIP
- 2025安徽合肥高新区管委会直属国有企业公开招聘31人笔试历年参考题库附带答案详解.docx
- SY∕T 5329-2022 碎屑岩油藏注水水质指标技术要求及分析方法.pdf
- 电线、电缆载流量对照表.pdf VIP
文档评论(0)