基于SVM的中文网页自动分类技术研究-计算机技术专业论文.docxVIP

基于SVM的中文网页自动分类技术研究-计算机技术专业论文.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SVM的中文网页自动分类技术研究-计算机技术专业论文

独创性声明 本人声明所呈交的学位论文是本人在导师指导。F进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获儇鲈缀太咨或其他教育机构 的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均 已在论文中作了明确的说明并表示谢意。 学位论文作者签名:搭兔丛 签字日期: 加f,年,月名日 学位论文版权使用授权书 本学位论文作者完全了解澎缎走学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权易锨缅以将学位论文的全部或部分.内容编入有关数据库进行 检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 (必威体育官网网址的学位论文在解密后适用本授权书) 学位论文作者鲐妪魁 导师鲐老邢 签字日期:少‘f年r月彬日 签字日期: 加11 年夕月端日 学位论文作者毕业去向: 工作单位: 电话: 通讯地jiE: 邮编: lIll l r II I Ir llll I I FI III Y1 974696 摘要 摘 要 随着互联网迅速普及和发展,网络信息资源呈爆炸式增长,用户从中选择 自己感兴趣的信息,给用户带来了方便,然而网络给人们提供足够丰富信息的 同时,也带来了新的问题。面对繁杂的网页内容,很难找到所需的信息,如何 方便快捷地找到这些网页信息,并有效管理和组织供用户进行选择是当前信息 分类面临的一大挑战。 “信息过载”是影响信息收集效率的一个主要原因,网上众多不相关的信 息默认为是相关的,则非常容易发生“信息过载’’的现象,虽然使用“信息过 滤”和“信息检索”等方法可以解决这个问题。然而,大部分“信息过滤”和 “信息检索”的方法不能够明确的说明用户需求。面对网上的海量信息,传统 的处理方式先是人工对网上信息进行分类,然后再组织和整理分类结果。这种 人工分类的做法不仅耗费大量的人力、物力和财力,而且存在分类结果一致性 不高的问题。因此,对网页自动分类技术进行研究,使网页能够自动进行分类, 为用户提供方便快捷的信息,具有重要的现实意义。 本文结合中文网页文本分类的研究背景,研究意义以及简要介绍SVM算法 的国内外学者对其研究的现状,并针对SVM多类别分类方法进行改进和实验验 证。具体工作如下: 首先,本文简要介绍Web挖掘的流程和应用,研究分析中文网页分类的总 体过程,包括:中文网页预处理、特征选取技术、网页分类算法和网页分类效 果的评价指标。重点研究分析特征选取技术,网页分类效果的评价指标。 其次,分析研究统计学习理论的理论基础和SVM算法的基本原理,对SVM 的多种多类别分类算法进行介绍。本文的理论创新是针对支持向量机多分类算 法实际存在不足,进行了改进,提出一种新的多类分类SVM网页分类方法。 最后,在改进多分类算法的基础上,进行仿真实验,将收集到的中文网页 基于SVM的中文网页自动分类技术研究 样本用于未改进算法和改进算法进行训练和测试,实验结果表明改进后的多分 类SVM算法效果优于未改进的算法;此外,对不同特征表示对分类结果的影响, 进行了验证分析,得出TF.IDF方法性能优于词频权重方法;最后对如何选择合 适的特征表示分析方法、提高分类的准确率提出了一些研究思路。 关键词:网页分类;SVM;多分类 Abstract Abstract With the rapid popularization and development of network,the network information resources,which is in explosive growth,the users choose their interest from it,SO network brings convenient to users;however,abundant information brought new problems.How to effectively organize and manage these information, and rapidly,accurately,comprehensively to find the information which the users need is currently facing challenge. ”Information over

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档