- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
KNN和SVM算法在中文文本自动分类技术上的比较研究.doc
KNN和SVM算法在中文文本自动分类技术上的比较研究
[日期:2009-07-22] 来源:? 作者: [字体:大 中 小]
摘要:中文文本分类技术在中文信息智能处理方面具有十分重要的作用比如:中文信息检索和有哪些信誉好的足球投注网站引攀等KNN、贝叶斯、SVM等算法都可以应用到中文文本分类技术上,本研究分析和比较了KNN和SVM两种分类算法,并通过实验比较这两种算法对中文文本分类技术的效果。结果表明:SVM算法较优,是一种较好的中文文本分类算法。
ThecomParisonstudiesonthealgorithmofKNNandSVMforchinesetextClassification
Abtraet::Chinesetextelassifieation15importantforehineseintelligentinformationmanagement,suehasehineseinformationretrievaland rehengine.AIOtofalgorithmseanbeusedforChinese textelassifieation,suehasKNN,BayesandSVMete.ThePaperhasanalyzedandcomparedtheKNNandSVMalgorithm.AndtheeffectofthetwoagorithmsonChinesetextelassifieationwasgotbytheexperiments.TheresultsindieatedthattheSVMalgorithmwasbetterthantheKNNalgorithm,whiehprovedthattheSVMalgorithmwasoneexcellentehinesetextelassifieation algorithm.
Keywords:Chinesetextelassifieation;KNN;SVM
随着计算机技术、信息技术的发展,尤其是互联网的日益普及,以半结构化或完全非结构化为主的电子信息呈几何级数增长,当前,仅google有哪些信誉好的足球投注网站引攀有哪些信誉好的足球投注网站的网页就达40多亿。如此海量的信息,为网络用户的工作和生活带来了极大的便利,但是如何从海量的信息中快速、准确地找到用户感兴趣的内容成为一个需要迫切解决的问题。基于内容的信息检索和数据挖掘逐渐成为备受关注的领域。其中,文本分类技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有粉广泛的应用。
20世纪90年代以前,占主导地位的文本分类方法一直是基于知识工程的分类方法,即由专业人员手工进行分类。人工分类非常费时,效率过低.20世纪90年代以来,众多的统计方法和机器学习方法应用于自动文本分类,文本分类技术的研究引起了研究人员的极大兴趣。目前英文自动分类已经取得了丰硕的成果,提出了多种成熟的分类方法,如最近邻分类(Knearestneighbor,KNN)、贝叶斯分类川、决策树以及支持向量机(Sup因rtveetormaehine,svM)[,]、向量空间模型(vesto:spaeemedel,vSM)、回归模型和神经网络川等方法,但对
于中文文本的自动分类技术研究尚不尽人意。目前国内中文文本分类研究主要集中在朴素贝叶斯、KNN、向量空间模型[’]和支持向量机[’]等技术上。本研究分析和比较KNN和SVM这两种机器学习算法在中文文本自动分类技术上的应用,并通过实验比较这两种分类算法的效果。
1中文文本分类技术
自动文本分类也就是在已有数据的基础上学会一个分类函数或分类模型,即所谓的分类器(Classifier)。为文档集合中的每个文档确定一个类别。现在主流的文本分类方法是基于机器学习的方法,此方法首先使用训练样本进行特征选择和分类器训练,然后把特征形式化待分类样本输人到分类器进行类别判定,最终得到输人样本的类别。基于机器学习的自动文本分类方法的基本过程包括文本的特征表示、特征提取、特征选择、文本分类等过程。
1.1文本特征衰示和特征提取
用简单而准确的方法将文档表示成计算机能够处理的形式是进行文本分类的基础,它是对从文本中抽取出的特征项进行量化,以一定的特征项表示目标信息。最经典文本形式化表示方法是20世纪60年代Salton等人提出的向量空间模型(VSM)。向量空间模型的基本思想把文档简化为以项的权重为分量的向量表示:(w,,w:,w3……w,),其中w‘为第i个特征项的权重,一般选取词作为特征项。向量用词频表示。词频分为绝对词频和相对词频:绝对词频,即词在文本中出现的频率,相对词频为归一化的词频,其计算方法主要运用TF一ID
您可能关注的文档
- fuzzy_examples_Matlab.ppt
- G-PACS解决方案.doc
- GDYK201S室内空气现场甲醛测定仪.doc
- Genomic组织和染色体的小鼠附睾视黄酸结合蛋白基因.doc
- Geodatabase新功能.pptx
- GFM阀控式铅酸蓄电池技术说明书.doc
- GIS-可行性研究报告.doc
- GMAT数学概念和名词 Algebra.doc
- GMDSS模拟器说明书.doc
- GPS原理与应用期末复习.doc
- L-精氨酸转运体CAT-2B的分子生物学特征及临床意义.doc
- L0201辽宁省医疗器械检验所.doc
- L2 traditional & historical linguistics.ppt
- LACOSTE 鳄鱼.doc
- landscape,ecology,pattern language论文.doc
- language points and practice.doc
- Layout工厂布置.ppt
- Lecture 15 The New Growth Theory(宏观经济学(南开大学,龚刚).ppt
- lesso1_language-study.ppt.ppt.ppt
- linux精品课程网站建设的论文.doc
文档评论(0)