小夜曲:一种基于音频插值的歌唱风格转换框架-计算机科学-歌唱风格转换-音频插值-深度学习.pdfVIP

小夜曲:一种基于音频插值的歌唱风格转换框架-计算机科学-歌唱风格转换-音频插值-深度学习.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

小夜曲:一种基于音频插值的歌唱风格转换

框架

LesterPhillipVioletaWen-ChinHuangTomokiToda

GraduateSchoolofInformaticsGraduateSchoolofInformaticsInformationTechnologyCenter

NagoyaUniversityNagoyaUniversityNagoyaUniversity

Nagoya,JapanNagoya,JapanNagoya,Japan

摘要—我们提出了Serenade,一个用于歌唱风格转换上相似,但在相似度评分上有很大的差距。分析结果

(SSC)任务的新框架。尽管歌手身份转换在过去几年取得了后,我们发现评估真实录音也很困难,因为演唱风格显

本很大进展,但转换歌手的歌唱风格仍是一个未被探索的研究领著影响了对歌手身份的认知。

域。我们在SSC中发现了三个主要挑战:建模目标风格、解耦

译因此,由于歌唱声音包含比歌手身份更复杂和特定

源风格和保留源旋律。为了建模目标歌唱风格,我们使用音频填

中充任务,通过预测目标mel谱图中的掩码片段来实现,该预测的特征,控制歌唱风格具有更多的实际应用价值并且需

2使用了流匹配模型,并结合了未被掩盖的目标mel谱图以及解要进行研究以推动该领域的发展。之前,发布了带有各

v

8耦的声学特征。另一方面,为了解耦源歌唱风格,我们采用了一种歌唱风格标签的SingStyle111[5],开启了这一任务的

8种循环训练方法,在这种方法中,我们将合成转换样本作为源输可能性。还发布了一个名为GTSinger[6]的大规模开源

3入,并将原始源mel谱图重建为目标。最后,为了更好地保留

2数据集,其中包含以不同歌唱风格演唱的各种平行歌曲

1源旋律,我们研究了一个基于源滤波器的声音编码器的后处理

.短语的歌唱数据。随着GTSinger的发布,现在可以探

3模块,并使用原始F0模式重新合成转换后的波形。我们的结果

0显示,Serenade框架能够以最佳的整体相似度得分处理泛化的索新的VC子应用,如歌唱风格转换(SSC)。由于这些

5SSC任务,特别是在建模气声和混合歌唱风格方面。我们还发数据集是新的,SSC是一个相对未被探索的任务。

2

:现,使用原始F0模式进行重合成减轻了走音现象并提高了自然在这项工作中,我们研究了新颖的SSC任务,并

v

i度,但由于没有将F0模式改变为目标风格,因此在相似度上略

x提出了一种称为Serenade的框架来完成此任务。我们

r有权衡。

aIndexTerms—歌唱风格转换,音频插值,循环训练,声识别出在完成这项任务时存在三个主要挑战。首先,我

码器后处理们需要开发一个能够准确建模参考歌手演唱风格的强

大框架。其次,我们必须成功分离源歌手的演唱风格以

I.介绍确保高质量合成。最后,除了捕捉演唱风格外,我们还

声纹转换(VC)[1],[2],[3],即在保持语言信息不变需要保留原始旋律并在正确的音符上合成波形以避免

的情况下改变说话人信息的任务,在生成式AI时代经跑调。

历了快速的变化。几种VC方法最早是在2016年Voice特别是,我们通过采用文本到语音(TTS)[7],[8],

ConversionChallenge(VCC)[1]中广泛比较的。更难的[9],[10]中

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档