GCC-垃圾邮件检测:通过 GAN、对比学习和字符相似性网络进行垃圾邮件检测-计算机科学-垃圾邮件检测-自然语言处理.pdfVIP

GCC-垃圾邮件检测:通过 GAN、对比学习和字符相似性网络进行垃圾邮件检测-计算机科学-垃圾邮件检测-自然语言处理.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

IEEETRANSACTIONSONINDUSTRIALINFORMATICS,VOL.XX,NO.XX,XXXX1

GCC-垃圾邮件检测:通过GAN、对比学习和

字符相似性网络进行垃圾邮件检测

ZhijieWang,ZixinXu,andZhiyuanPan,Member,IEEE

Abstract—互联网上的垃圾文本呈指数级增长,需要强大的的依赖,但它们的分词方案依赖于历史语料库,因此无

检测机制来减轻信息泄露和社会不稳定等风险。本研究解决了两法检测到未见过的对抗模式。先前的研究尝试通过测量

个主要挑战:垃圾发送者使用的对抗策略和标注数据的稀缺性。

字符级别的相似性或计算注意力机制下的句子嵌入[3]

我们提出了一种新的垃圾文本检测框架GCC-Spam,该框架集

本成了三个核心创新点。首先,字符相似度网络捕捉正字法和语音来防御这种对抗策略。然而,这些方法常常忽视了正

特征以应对字符混淆攻击,并进一步生成用于下游分类的句子嵌常文本和垃圾邮件之间的区别。为了解决这一局限性,

译入。其次,对比学习通过优化垃圾文本和正常文本之间的潜在空我们引入了对比学习[7]。对比学习是一种自监督的方

中间距离来增强辨别能力。第三,生成对抗网络(GAN)生成逼真法,它鼓励模型通过拉近语义相似的样本并推远不相似

的伪垃圾样本以缓解数据稀缺问题并提高模型鲁棒性和分类准确

2性。在真实世界数据集上的广泛实验表明,我们的模型优于基线的样本来在潜在空间中学习判别特征。通过结合对比学

v

9方法,在显著减少标注示例的情况下实现了更高的检测率。习,我们的方法实现了对垃圾邮件发送者之前未见过的

7

6IndexTerms—对抗性垃圾邮件,垃圾邮件检测,自然语言对抗策略的增强鲁棒性。

4处理(NLP),生成式对抗网络(GAN),对比学习第二个挑战是数据稀缺。与图像识别等标准化任务

1

.不同,垃圾信息的定义在各个平台之间存在差异——例

7

0I.介绍如,在微信上被视为垃圾信息的消息可能在X平台上

5

2HE互联网的迅速发展伴随着垃圾文本的泛滥,被认为是正常的。这种变异性使得难以获得统一的、公

:

vT这不仅降低了用户体验,还带来了信息泄露、网开标注的数据集。此外,考虑到每日消息的巨大数量和

i

x络欺诈和社会不稳定等风险[21,16,6,10,12,22]。垃垃圾信息极低的比例,手动标注是不切实际的。为了解

r

a圾文本检测是异常检测中最关键的任务之一[15,14,13,决这一问题,我们采用生成对抗网络(GANs)来提高

9],面临着两个主要挑战:发送垃圾信息的人可能会采标注效率[5]。GANs在对抗训练框架中运行,在我们的

用对抗行为,并且标注数据稀缺。为了解决这些问题,方法中,它们被用来生成逼真的伪垃圾文本,增强训练

在现有研究的基础上[3],本工作扩展并改进了先前的数据,并提高模型对伪装垃圾内容的鲁棒性。

研究,引入了一种新型的垃圾检测方法GCC-Spam,旨为了解决上述挑战,本文提出了一种以字符相似性

在使用更少的数据和减少训练资源的情况下实现更好网络为中心的新颖垃圾文本检测模型。该网络与字符级

的性能。所提出的方法的有效性通过一系列对比实验得嵌入模型协同工作,将用户消息转换为句子级别的表

到了证明。示。通过利用对比学习,该模型增强了其区分垃圾文本

第一个挑战在于垃圾邮件发送者所采用的对抗策和合法文本的能力。此外,采用基于GAN的架构生成

略。早期基于规则的方法(例如,关键词过滤)在垃圾现实的伪垃圾样本,有效缓解了标签数据不足的问题,

邮件发送者使用语义变体——如用同义词重写同一句并进一步提高了分类准确性。

话——或字符级别的混淆时失效,比如将敏感词汇替换

文档评论(0)

zikele + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档