- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
小夜曲:一种基于音频插值的歌唱风格转换
框架
LesterPhillipVioletaWen-ChinHuangTomokiToda
GraduateSchoolofInformaticsGraduateSchoolofInformaticsInformationTechnologyCenter
NagoyaUniversityNagoyaUniversityNagoyaUniversity
Nagoya,JapanNagoya,JapanNagoya,Japan
摘要—我们提出了Serenade,一个用于歌唱风格转换上相似,但在相似度评分上有很大的差距。分析结果
(SSC)任务的新框架。尽管歌手身份转换在过去几年取得了后,我们发现评估真实录音也很困难,因为演唱风格显
本很大进展,但转换歌手的歌唱风格仍是一个未被探索的研究领著影响了对歌手身份的认知。
域。我们在SSC中发现了三个主要挑战:建模目标风格、解耦
译因此,由于歌唱声音包含比歌手身份更复杂和特定
源风格和保留源旋律。为了建模目标歌唱风格,我们使用音频填
中充任务,通过预测目标mel谱图中的掩码片段来实现,该预测的特征,控制歌唱风格具有更多的实际应用价值并且需
2使用了流匹配模型,并结合了未被掩盖的目标mel谱图以及解要进行研究以推动该领域的发展。之前,发布了带有各
v
8耦的声学特征。另一方面,为了解耦源歌唱风格,我们采用了一种歌唱风格标签的SingStyle111[5],开启了这一任务的
8种循环训练方法,在这种方法中,我们将合成转换样本作为源输可能性。还发布了一个名为GTSinger[6]的大规模开源
3入,并将原始源mel谱图重建为目标。最后,为了更好地保留
2数据集,其中包含以不同歌唱风格演唱的各种平行歌曲
1源旋律,我们研究了一个基于源滤波器的声音编码器的后处理
.短语的歌唱数据。随着GTSinger的发布,现在可以探
3模块,并使用原始F0模式重新合成转换后的波形。我们的结果
0显示,Serenade框架能够以最佳的整体相似度得分处理泛化的索新的VC子应用,如歌唱风格转换(SSC)。由于这些
5SSC任务,特别是在建模气声和混合歌唱风格方面。我们还发数据集是新的,SSC是一个相对未被探索的任务。
2
:现,使用原始F0模式进行重合成减轻了走音现象并提高了自然在这项工作中,我们研究了新颖的SSC任务,并
v
i度,但由于没有将F0模式改变为目标风格,因此在相似度上略
x提出了一种称为Serenade的框架来完成此任务。我们
r有权衡。
aIndexTerms—歌唱风格转换,音频插值,循环训练,声识别出在完成这项任务时存在三个主要挑战。首先,我
码器后处理们需要开发一个能够准确建模参考歌手演唱风格的强
大框架。其次,我们必须成功分离源歌手的演唱风格以
I.介绍确保高质量合成。最后,除了捕捉演唱风格外,我们还
声纹转换(VC)[1],[2],[3],即在保持语言信息不变需要保留原始旋律并在正确的音符上合成波形以避免
的情况下改变说话人信息的任务,在生成式AI时代经跑调。
历了快速的变化。几种VC方法最早是在2016年Voice特别是,我们通过采用文本到语音(TTS)[7],[8],
ConversionChallenge(VCC)[1]中广泛比较的。更难的[9],[10]中
您可能关注的文档
- 神经离散令牌表示学习以大幅减少视频大型语言模型中的令牌数量-计算机科学-大语言模型-视频表示-计算机视觉.pdf
- RL4Med-DDPO: 基于视觉语言基础模型的多样化医学图像生成的强化学习控制引导方法-计算机科学-视觉语言基础模型-医学图像生成-策略优化.pdf
- WebNav:一种用于语音控制网页导航的智能代理-计算机科学-大语言模型-网络自动化-人机交互-多模态人工智能.pdf
- 镜像在线符合预测与间歇反馈-计算机科学-共形预测-在线凸优化-算法.pdf
- 驾驶行为建模在速度建议系统中的应用:基于科普曼的在线更新方法-计算机科学-人工智能-驾驶辅助系统.pdf
- Nesterov 加速梯度方法的简洁 Lyapunov 分析-计算机科学-机器学习-优化算法.pdf
- 使用内部交易数据进行股票价格预测的机器学习算法比较研究-计算机科学-机器学习-股票价格预测-数据挖掘.pdf
- MORPH-LER : 对数欧几里得正则化用于人群感知图像配准-计算机科学-可变形图像配准-医学图像分析.pdf
- 一种基于 Gromov-Wasserstein 距离的降维技术-计算机科学-机器学习-降维-最优传输.pdf
- DNN 的随机权重及固定点的出现-计算机科学-深度神经网络-算法.pdf
最近下载
- 可靠性工程管理方案(3篇).docx VIP
- 工程质量控制作业标准WHS设置汇总报审.doc VIP
- SIEMENS西门子SITRANS LU180超声波物位计操作手册.pdf
- 2024福建统招专升本《英语》知识考点汇总.pdf VIP
- 卫生药学副高职称个人总结(8篇).docx VIP
- 美国CTPAT反恐安全控制程序 .pdf VIP
- 《吴川音字典》首发.PDF VIP
- 2024-2025学年南山区四年级数学(上)期末试题(含答案)(1) (1).pdf VIP
- 特发性震颤基层诊疗指南(2021).pptx VIP
- 贵州乌江水电开发有限责任公司校园招聘模拟试题附带答案详解一套.docx VIP
文档评论(0)