DiffRhythm+: 带有偏好优化的可控且灵活的全曲生成-计算机科学-人工智能-歌词生成-歌曲创作-多模态.pdfVIP

下载本文档

0
0
约3.26万字
约 9页
2025-07-27 发布于中国
举报
版权申诉

DiffRhythm+: 带有偏好优化的可控且灵活的全曲生成-计算机科学-人工智能-歌词生成-歌曲创作-多模态.pdf

1、本文档共9页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

DiffRhythm+:带有偏好优化的可控且灵活的

全曲生成

HuakangChen,YuepengJiang,GuobinMa,ChunboHao

ShuaiWang,JixunYao,ZiqianNing,MengMeng,JianLuan,LeiXie

Audio,SpeechandLanguageProcessingLab(ASLP@NPU)

SchoolofIntelligenceScienceandTechnology,NanjingUniversity,Suzhou,China

MiLMPlus,XiaomiInc.

huakang@,lxie@

摘要—歌曲作为音乐艺术的一种核心形式，体现了人类智动地进行音乐创作。这些发展促进了各种应用，如为短

本慧和创造力的丰富性。虽然生成模型领域的近期进展促进了长视频生成个性化音乐、电影配乐、教育工具和治疗实践

译篇幅歌曲创作的进步，但当前用于全曲合成的系统仍面临重[4],[5]。

大挑战，包括数据不平衡、控制不足以及音质不一致等问题。

中音乐生成领域的研究通常涵盖三个主要领域：歌唱

DiffRhythm作为一种基于扩散的开创性模型，在通过生成带

1有表现力的主唱和伴奏的全曲方面推动了该领域的发展。然而，语音合成（SVS）、文本到音乐生成和歌词到歌曲生成。

0其性能受到训练数据集不平衡及音乐风格控制有限的限制，导SVS从提供的歌词和乐谱[6]–[10]生成具有表现力的、

9致质量差异显著且创作灵活性受限。为解决这些局限，我们提出类似人类的歌声，支持虚拟歌手、艺术家声音克隆以及

2了DiffRhythm+，一种用于可控制和灵活全曲生成的增强扩辅助工具等应用。相比之下，文本到音乐生成根据文本

1散框架。DiffRhythm+利用了一个大幅扩展并平衡的训练数据

.描述、情绪提示或指令[11]–[16]创建乐器音乐。然而，

7集来缓解诸如歌词重复或遗漏等问题，同时促进更丰富音乐技巧

0和表现力的出现。该框架引入了一种多模态风格条件策略，允许当独立使用时，这两种方法都存在固有限制。SVS模型

5用户通过描述性文本和参考音频精确指定音乐风格，从而显著增通常只生成无伴奏的声乐轨道，而文本到音乐系统则生

:强创意控制和多样性。我们进一步介绍了直接与用户偏好对齐的成缺乏声乐旋律和歌词的乐器轨道。在现实世界的创作

i表现优化方法，引导模型在评估指标上始终输出更受偏好的结中，声乐与伴奏交织在一起以创造出丰富的语义和听觉

r果。广泛的实验表明，DiffRhythm+在自然度、编排复杂性和一致性，这对全面的歌曲生成构成了重大挑战。

听众满意度方面相较于先前系统取得了显著改进。音频样本可

歌曲生成特别针对这一挑战，通过从原始歌词和风

在https://longwaytog0.github.io/DiffRhythmPlus/获

取。格提示直接合成完整的歌曲（包括人声和乐器）来解

IndexTerms—歌词生成，歌曲创作，扩散模型，多模态，决。当前的方法通常采用基于自回归语言模型（LM）的

偏好优化。方法或基于扩散的技术。基于LM的方法[17]–[21]将歌

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

DiffRhythm+: 带有偏好优化的可控且灵活的全曲生成-计算机科学-人工智能-歌词生成-歌曲创作-多模态.pdfVIP