基于Logistic回归的垃圾邮件过滤应用研究final_2008-4-9.doc

基于Logistic回归的垃圾邮件过滤应用研究final_2008-4-9.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
密级: 硕 士 学 位 论 文 (工程硕士) 论文题目 基于Logistic回归的垃圾邮件过滤应用研究 作者姓名 王庆幸 指导教师 徐从富 副教授 学科(专业) 计算机应用 所在学院 计算机学院 提交日期 2008年3月 A Dissertation Submitted to Zhejiang University for the Degree of Master of Engineering TITLE: Study on Applications of Spam Filtering Based on Logistic Regression Author: Qingxing Wang Supervisor: Congfu Xu Associate Professor Subject: Computer Applications College: College of Computer Science Submitted Date: March 2008 摘 要 基于内容的机器学习判别方法是当前解决垃圾邮件问题的主流技术之一,包括Ripper、决策树方法等基于规则的方法,以及贝叶斯(Bayes)、支持向量机(Support Vector Machine, SVM)等基于概率统计的方法。这些方法的基本思路是,将垃圾邮件过滤看成一个两类问题,研究从样本邮件出发寻找规律(或分类器),利用规律(或分类器)对未知邮件进行预测。随着人工智能、计算机技术的创新和发展,这种将机器学习方法应用于邮件分类领域一直成为当前研究的热点和重点。 Logistic回归模型通过构建似然比(Likelihood ratio)的对数为一线性函数来实现,被大量应用于背离正态分布的真实数据集中。本文描述了两类问题的Logistic回归模型及其参数估计,研究Logistic回归模型在垃圾邮件过滤中的应用。本文还给出了Logistic回归模型应用于垃圾邮件过滤的关键技术实现方法,主要包括: 利用JavaMail和HTMLParser的应用程序接口(API)对邮件进行解析; 提出了一种中文、非中文混合文本的分词方法,解决直接采用第三方分词系统引起的效率低下问题; 提出一种改进的特征值计算方法,引入了权重因子,通过改变一些特殊词(如用户自定义的词、参与构建邮件主题的词、黄色或暴力等敏感词)的权重因子,获得更好的分类效果; 提出了一种以词频为特征选择依据实施维数约简的方法,有效减小了特征空间的大小,提高了运行效率和分类效果; 提出了采用正常邮件误判率(ham misclassification percentage ,ham%)、垃圾邮件误判率(spam misclassification percentage ,spam%)和精确率(Accuracy)等传统分类指标来评价Logistic邮件分类模型过滤垃圾邮件判别能力,分析特征提取和特征值计算方法、词权重的定义和训练模型的选择对邮件分类模型的影响; 提出了采用ROC曲线(Receiver Operating Characteristic curve,接受者操作特性曲线)下方的面积ROCA指标选择模型训练参数的方法,综合了ham%和spam%,较好地反映了分类器的效率。 实验中,本文将Logistic回归模型应用于SEWM2007垃圾邮件语料库上,取得了较优的垃圾邮件过滤效果。对比实验结果表明,应用于垃圾邮件过滤的Logistic回归模型和SVM相比具有更优的ROC指标和更快的运行效率。 关键词: 垃圾邮件过滤, Logistic回归, ham%, spam%, ROC Abstract Content-based spam filter based on machine learning techniques is one of mainstream technologies used so far, including Ripper, Decision Tree, etc, which based o

文档评论(0)

14576 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档