- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
垃圾短信过滤器研究与实现
垃圾短信过滤器研究与实现 摘要 目前手机垃圾短信的过滤主要通过两种方式实现,一种是通过服务器端的通过对短信信息库的过滤来实现的,如朗讯科技推出的ASA系统。另一种是通过客户端的垃圾短信过滤。ASA 系统和目前的手机垃圾短信过滤软件都是通过关键词匹配实现的,关键词匹配的方法简单实用,但是有其致命的缺陷,如关键词库不能持续更新,需要手动添加的方式更新关键词库。本文主要讨论的是基于黑白名单[1],关键词库,朴素贝叶斯的相结合的方法来实现垃圾短信过滤,与传统方法相比较,不但可以动态更新关键词库,还有自学习能力,在过滤效率和准确率方面获得大幅度提升。 关键词 ASA;黑白名单;朴素贝叶斯 中图分类号TN918 文献标识码A 文章编号 1674-6708(2011)34-0203-02 0 引言 自从2000年中国移动和中国联通正式推出短信息业务,经过短短10年时间的发展,短信业务量持续上升。短信已成为人们传递信息不可或缺的一种方式,特别是对年轻一代,短信显的更加重要。随着短信业务的扩大,短信领域也呈现了诸多问题。由于缺乏相关的法律法规,短信已成为传播欺诈、色情、反党反国家等不良信息的一种途径。像垃圾邮件一样,手机短信用户日益受大量垃圾短信的困扰。据统计,中国每个手机用户平均每周收到垃圾短信8.29个[2]。垃圾短息已经成为公众关注和投诉的焦点之一。另外随着3G网络和智能手机的发展,手机上网,手机下载已越来越容易化,特别是对于初高中生,由于手机普遍化,而他们缺少相关的防范意识,不能抵制相关诱惑,而针对手机目前又没有相关的法律防范措施也没有相关的网络保护措施,这样的情况下,初高中生容易上当受骗,进入非法网站,浏览不健康的网页,这极大的影响了他们的身心健康。本文提出了基于客户端的实时垃圾信息过滤系统的设计与实现。 1 朴素贝叶斯算法 1.1 向量空间模型 由于短信采用文本形式表示信息,因此必须对短信文本进行预处理,将文本信息表示成计算机能够识别的形式。本文采用向量空间模型(VSM),使用向量(w1,w2,-,wn)来表示短信,其中,wi为第i个特征项的权重;n表示特征项??维数。将短信表示成为VSM的过程需要3个步骤:1)短信预处理;2)特征降维;3)权重计算。短信预处理要将短信文本按内容分词,并将如“的”、“关于”、“而且”等一些对分类无实际意义的单词剔除。笔者借用中国科学院计算技术研究所设计的汉语词法分析系统――ICTCLAS。该系统具有高达98%以上的分词准确率。预处理之后的短信会被分成很多的词语,当训练集使用的短信数量很大时,其向量空间维数仍然是相当巨大,必须对其进行特征降维。特征降维有2种方法:1)特征选择,不改变原始特征空间的性质,只是从原始特征空间中选择了一部分重要的特征,组成一个新的低维空间;2)特征抽取,存储和计算量大,不适合对手机短信的处理。因此,本文采用特征选择的方法进行降维。本系统在特征选择算法上采用信息增益(IG)。进行特征选取之后,由特征词作为向量的维数来表示短信,减少了向量空间的维数。对这些特征进行权霞计算后,原本以文本信息为形式的短信就转换成了可供分类器进行分类的向量空间模型。针对朴素贝叶斯分类器,特征权重计算方法只有布尔权重函数和词频权重函数,即多变量贝努里事件模型和多项式事件模型。 1.2 朴素贝叶斯算法介绍[3-5] 首先将每一个数据样本用一个n维特征向量X={x1,x2,…,xn},假设用Cshy;1,C2代表正常短信和垃圾短信。给定一个未知的数据样本X(即没有类标号),分类法将预测X属于具有最高后验概率(条件X下)的类。即朴素贝叶斯分类将未知的样本分配给类Ci,当且仅当: P(Ci|X)P(Cj|X);1≤j≤2,j≠i (1) 这样,最大化P(Ci|X)。其中P(Ci|X)最大的类称为最大后验假定。根据贝叶斯定理有: P(Ci|X)= (2) 由于P(X)对于所有类为常数,只需要P(X|Ci)P(Ci)最大即可。如果类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2),并据此只对P(Ci|X)最大化;否则,最大化P(X|Ci)P(Ci)。类的先验概率可以用P(Ci)=Si/s计算,其中si是类Ci中的训练样本数,而s是训练样本总数。 给定具有许多属性的数据集,计算P(X|Ci)的开销可能非常大。为了降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。给定样本的类标号,假定属性值相互条件独,即属性间不存在依赖关系。这样: P(X|Ci)= (3) 概率P(x1|Ci),P(x2|Ci)可由训练样本估计。 为了对未知样本X分类对每个类Ci,计算P(X|Ci)P(Ci)。样
文档评论(0)