两种视角,一个真相:频谱和自监督特征融合用于鲁棒的语音深度伪造检测-计算机科学-合成语音-音频深度伪造检测.pdfVIP

两种视角,一个真相:频谱和自监督特征融合用于鲁棒的语音深度伪造检测-计算机科学-合成语音-音频深度伪造检测.pdf

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

两种视角,一个真相:频谱和自监督特征融合用于鲁棒的语音深度伪

造检测

YassineElKheir,ArnabDas,EnesErdemErdogan,FabianRitter-Guttierez,TimPolzehl,SebastianMöller

SpeechandLanguageTechnology,DFKI,Germany

QualityandUsabilityLab,TechnicalUniversityofBerlin,Germany

AITeam,GretchenAI,Germany

NanyangTechnologicalUniversity,Singapore

摘要—近期合成语音的进步使得音频深度伪造变得更加逼真,带来

了重大的安全风险。现有的依赖单一模态(无论是原始波形嵌入还是基

于频谱的特征)的检测方法容易受到非欺骗性干扰的影响,并且通常过

度拟合已知的伪造算法,导致对未知攻击的一般化性能较差。为了解决

这些问题,我们研究了集成自监督学习(SSL)表示与手工制作的频谱描

本述符(如MFCC、LFCC、CQCC)的混合融合框架。通过跨模态对齐和图1:我们的方法的整体框架。SF表示光谱特征,SSL表示自监督特征。

结合互补信息,这些融合方法捕捉到了单一特征方法通常忽视的细微瑕

译疵。我们探索了几种融合策略,包括简单的拼接、交叉注意力、相互交叉[8]、恒定Q倒谱系数(CQCC)[9]、恒定-Q变换(CQT)[10]、

中注意力和可学习门控机制,以最优地将SSL特征与精细频谱线索相结合。短时傅里叶变换(STFT)[11]和梅尔频谱图[12]。这些特征捕捉

我们在四个具有挑战性的公共基准测试(LA19、DF21、ITW、ASV5)

了高频伪影,通常会输入到分类器中,如卷积神经网络(CNNs)

1上评估了我们的方法,并报告了一般化性能。所有融合变体都一致优于

v仅使用SSL的基线,其中交叉注意力策略在等错误率(EER)相对减少或多层感知器(MLPs),以执行真实语音(bonafide)与欺骗语

7了38%的情况下实现了最佳一般化。这些结果证实了波形和频谱视图的音之间的二元分类。多种基于CNN的架构已被探索用于此任务,

1联合建模产生了稳健且领域无关的表现形式,用于音频深度伪造检测。包括ResNet[13]、Inception[11]、Res2Net[14]、ECAPA-TDNN

4

0[15]、LCNN[16]。

2.1.介绍同时,端到端方法直接操作原始音频波形[8],[17]。特别是,

7近期生成人工智能的进步显著改变了超现实语音合成领域。最先AASIST[18]模型使用固定的sinc-卷积滤波器组处理原始语音,

0

5进的文本转语音(TTS)和语音转换(VC)技术的进步使得产生随后是一个配备注意力机制的谱时图神经网络(GNN),显示出

2与自然人类发音极为相似的语音输出成为可能[1]。此外,大型语优于早期模型的性能。

:

v言模型(LLMs)进入音频和语音生成[2]–[4]工作流进一步提升近期的发展利用自监督学习(SSL)技术,通过基于变压器的

i

x了生成复杂且高保真度和细腻度的语音信号的能力。尽管有这些编码器(如Wav2vec2.0[19],XLSR[20],WavLM[21],HuBERT

r

a令人鼓舞的进步,它们也带来了重大的挑战。能够生成高度逼真[21])来获取稳健的音频表示。这些基于SSL的方法在传统基于

的语音工具的日益普及引发了人们对恶意行为者滥用这些技术的手

您可能关注的文档

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档