改进的KNN方法及其在中文文本分类中的应用.pdfVIP

改进的KNN方法及其在中文文本分类中的应用.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
改进的KNN方法及其在中文文本分类中的应用

第27卷第2期 西华大学学报(自然科学版) 2008年3月 VoL27,No.2 ofXihua Science Mall.2008 Journal University·Natural 文章编号:1673-159X(2008)02-0033-36 改进的KNN方法及其在中文文本分类中的应用 刘 博1,杨 柳2,袁 方3 (I.河北农业大学信息科学与技术学院,河北保定071001;2.河北大学经济学院; 3.河北大学数学与计算机学院,河北保定071002) 摘要:介绍了基于KNN方法的中文文本分类流程及相关技术,在分析传统KNN方法不足的基础上提出一 种改进的KNN方法。该方法在特征选取、权值确定、相似度计算等方面进行了改进,并给出了优化措施。实验表 明:与传统的KNN方法相比,改进后的KNN方法在保证分类准确率的同时,使分类效率得到了有效提高。 关键词:文本分类;KNN;特征选取;相似度;优化 中图分类号:TP391 文献标识码:A 随着文本信息的快速增长,尤其是Intemet资为了便于处理,一篇文本通常用由其词集来描述,与 源信息的迅猛发展,文本分类已经成为现代信息处 英文不同,中文中各个词之间没有固定的分隔符,因 理研究的一大热点。作为一种带监督的机器学习过 此分词成为中文文本分类的必需环节,分词的准确 程,文本分类根据预定义的类别信息和训练文本,按 性直接关系到分类的结果。 照某种分类算法,训练生成相应的分类模型,然后利 用模型对未知类别的文本进行自动分类。目前常用 的分类算法主要有朴素贝叶斯方法¨J、KNN方法 ¨J、支持向量机方法(SVM)∞3等。其中基于统计的 KNN算法,具有操作简单,无需训练过程等优点,因 此得到了广泛应用。其主要的不足之处在于随着训 练文本数的增多,会在分类过程中产生较大的计算 开销,从而导致分类效率低下。本文提出了一种改 进的KNN方法,在特征选取、权值确定、相似度计算 等方面较传统KNN方法进行了改进,并给出了优化 措施。与传统的KNN方法相比,在保证分类准确率 图1分类流程图 的同时,有效提高了分类效率。 1 中文文本分类流程及相关技术 即使经过预处理的过程,训练文本所产生的词 中文文本分类的一般流程及所用到的相关技术 条数量仍然过于庞大,而且其中相当一部分词条对 见图l。由图l可见,训练文本在被输入到分类器 分类的准确性没有影响,因此需要进行特征选取以 之前,需经过预处理和特征选取的操作以将其转化 达到降维的目的,特征选取会找出那些具有较高类 为形式化的信息。不同的分类方法所需要的信息不 别区分度的词。常用的特征选取方法都是基于统计 原理。这包括互信息(Mutual 同,对于KNN、SVM方法是基于文本的向量空间模 (CrossEntropy)、信息增益(InformationGain)等旧o。 型(VSM)MJ,对于决策树,关联规则方法则是基于 布尔模型‘引。 通常使用某种特征选取方法进行全局选取,即计算 文本预处理主要包括分词、去停用词等技术。 某个词条与每个类别的相关度,选取平均相关度最 收稿日期:2007—12-28 基金项目:河北省科技攻关计划项目(No;河北省教育厅科研计划项日(No.2004406)。 作者简介:刘博(1981一),男,河北保定人,助教,硕士,主要从事数据挖掘方面的研究。 万方数据

文档评论(0)

zsmfjh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档