- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
附件广东工业大学精品课程
协同计算与知识工程 协同计算与知识工程 数据挖掘 滕少华 广东工业大学 协同计算与知识工程 9.4 基于内容的垃圾邮件识别 9.4.1 垃圾邮件识别方法简介 9.4.2 基于内容的垃圾邮件识别方法工作原理 9.4.3 一种基于聚类的垃圾邮件识别方法 * 9.4.1 垃圾邮件识别方法简介 主流的垃圾邮件识别技术可分为邮件服务器端防范技术和邮件客户端防范技术两大类 邮件服务器端防范技术: 基于IP地址、域名和 “(黑)白名单”过滤技术; 基于信头、信体、附件的内容过滤技术; 基于连接频率的动态规则技术; 邮件客户端防范技术: 充分利用黑名单,白名单功能; 慎用“自动回复”功能;尽量避免泄露邮件地址; * 基于内容的垃圾邮件识别技术 基于内容的垃圾邮件识别技术是邮件服务器端防范技术的主流技术,以上提到的基于信头、信体、附件的内容过滤技术是典型的基于内容的方法 这类型方法的典型代表有Bayes方法、kNN、支持向量机SVM、Rocchio、神经网络等 * 9.4.2 基于内容的垃圾邮件识别方法工作原理 一封标准格式的电子邮件包含有邮件头部(mail head)和邮件体(mail body)两部分 邮件头部包括发件人,收件人,抄送人,发信日期,主题,附件等信息 邮件体包括邮件正文信息 实例图如下: * * 垃圾邮件过滤的基础 在不考虑附件、图片化文字等问题,只简单考虑邮件中包含的文本内容情况下,这类垃圾邮件大概占总垃圾邮件数量的80% 垃圾邮件过滤的基础是识别出所接收到邮件是正常邮件还是垃圾邮件,而这个识别过程可以看作是一种二类的文本分类问题,即正常邮件和垃圾邮件两个类别文本的识别 * 识别方法的主要步骤 基于内容的垃圾邮件识别方法的主要步骤: 将解码并格式化后的电子邮件视为文本; 分词并使用相应的文本表示方法来表示文本,较多的方法采用向量空间模型 VSM; 基于已有的垃圾邮件和正常邮件语料库,采用文本分类算法建立垃圾邮件识别模型; 基于识别模型判别新收到的邮件是否为垃圾邮件 * 9.4.3 一种基于聚类的垃圾邮件识别方法 介绍的方法首先采用聚类算法学习训练语料,并建立识别模型,然后再结合kNN分类方法思想对测试语料决策分类,具有很好的识别准确度以及效率 并可以通过聚类算法增量更新模型 * 建立识别模型 利用一趟聚类算法建立识别模型,过程如下: 初始时, 簇集合为空,读入一个新的文本; 以这个对象构造一个新的簇,该文本的类别标识作为新簇的类别标识; 若文本已被处理完,则转(6),否则读入新对象, 计算并选择最大的相似度的簇; 若最大相似度小于给定半径阈值r,转(2); 否则将该文本并入具有最大相似度的簇,转(3); 采用投票机制对聚类得到的簇进行标识; 得到聚类结果(识别模型),建模阶段结束。 * 决策分类 结合kNN分类方法思想,利用识别模型对测试语料进行分类处理: 给定一个测试文本x,使用公式(1)计算模型m0的每个簇的打分,即 (1) (2) 找出k1(first_k_value)个最近邻的簇,并在这些簇中查找k2(second_k_value)个最近邻的文本 基于得到的k2最近邻文本集,使用公式(2)给其打分,并将x判定为得分最高的类别 * 模型更新 对于新添加的训练语料,采用建立模型一样的方法对新添加的训练文本进行增量式聚类,更新聚类结果,以得到新的识别模型 * 部分算法性能测试结果 * Ling-Spam语料lemm版本上的十折交叉验证分类结果 * Ling-Spam上的增量式建模分类TCR值 * Ling-Spam上的增量式建模的簇变化情况 * 协同计算与知识工程 协同计算与知识工程
您可能关注的文档
最近下载
- 2025至2030稀土永磁材料行业发展趋势分析与未来投资战略咨询研究报告.docx
- 高考物理一轮复习重难点逐个突破专题81电磁感应中的单、双棒问题(原卷版+解析).docx VIP
- 部编五年级上册语文单元分析.pdf VIP
- 模拟退火算法课件.pptx VIP
- 2025至2030中国钕稀土磁铁行业发展趋势分析与未来投资战略咨询研究报告.docx VIP
- 2025年安徽高考思想政治真题试卷完全解读(含试卷分析与备考策略).docx VIP
- 2025至2030中国MRI磁铁行业发展趋势分析与未来投资战略咨询研究报告.docx VIP
- 水平三新课标体育与健康教案.pdf VIP
- 《立足课标与课本 科学备战》2025安徽省中考化学复习 策略.pptx
- 土石坝安全监测技术规范.pdf VIP
文档评论(0)