- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2008年第7期 福 建 电 脑 113 基于信息增益特征选取和覆盖的中文文本分类 白云晖 (浙江艺术职业学院 浙江杭州 310053) 【摘 要】:本文利用信息增益特征选取和前向神经网络的覆盖算法,对文本进行分词的预处理后,实现文本的自动分 类。该方法将信息增益特征选取和覆盖算法充分结合,不但提高了分类速度,还保证了分类的准确度。应用该方法对标准数据 集中的文本进行实验,并在不同的维数上与SVM算法,贝叶斯方法的实验结果进行了比较。 【关键词】:覆盖算法;文本分类;特征降维 引言 2、特征降维 随着互联网的发展,以其为载体的信息爆炸般地迅速增长。 经过预处理,即去除停用词和稀有词后,得到的词组(向量 而文本信息占据着信息的主导地位。因而,在当前的有哪些信誉好的足球投注网站引擎和 的维数1集依然是巨大的。而维数过大会导致分类器的运算强度 未来一代的有哪些信誉好的足球投注网站引擎的设计中,文本信息分类技术在相关的信 过大.且不同特征对分类的影响度是不同的,因此需要采用合适 息检索技术中具有重要的地位。文本分类是指将待分类的文本 的特征选择算法来进行特征降维.找出需要的词组集。特征选择 自动指定至一个或几个预定义的文本类别中.这样就大大提高 Il】的目的是要从分词所得到的大量词组中找出某一真子集.选择 了有哪些信誉好的足球投注网站的效率.节省了时问。 标准是此真子集在显著降低运算复杂度的同时不会使分类的准 基于向量比较文本分类概括出来主要分为三个阶段:分词 确性产生明显下降『31。目前常见的文本降维方法有I411~l: 本频 及预处理,特征降维,分类。本文在特征选择,即特征降维阶段, 度,互信息方法,CHI值方法,期望交叉熵方法,文本证据权方法 选择了信息增益方法.而在分类的时候本文利用前向神经网络 等。本文采用了信息增益来进行文本的降维。 的覆盖算法,通过对一组事先已经分类的文本 (切l练文本)的学 在文本分类中.特征tlc的信息增益如式(2)所示: 习.构造一个文本自动分类器。再利用这个分类器去对未分类的 1G(“) 一f P(c.)1。gP(c )+ 文本进行分类。因为在分类过程中没有领域专家的干预,所以节 l。 t 省了大量的人力,提高了分类效率。而与信息增益特征选择的结 P(“)a P(c-I“)log P(c zI“) (2) 合,既保证了分类的准确性。又提高了分类的速度。在实验阶段, 比较了覆盖算法与SVM算法,朴素贝叶斯方法的准确性,并讨 P( )a P(c,I )Iog P(c I ) 论了准确性随维数的变化规律。 其中, )为切l练集中不出现特征琥的文本数除以训练集 1、文本分类的预处理过程 的文本数, c ft。J为类型c 中出现tl的文本数除gt-~q练集中 l_1分词 出现“的文本数。特征在文本中是否出现都将为文本分类提供 目前在信息的分类上面,主要采用向量空间模型。在向量空 信息.计算不同情况下的条件概率以确定提供的信息量的大小。 间模型中,文本被表示为一个高维向量,向量的每一维代表一个 信息增益是机器学习领域较为广泛的特征选择方法。利用特征 特征,通常是一个字或词,而其取值则是相应的权值。研究者在 取值情况划分切l练样本空间.根据所获得信息量的多少选择相 这个模型基础之上应用了多种分类技术.这些技术大多可归为 应特征。进行特征选择时,选择信息增益大的特征。 统计识别方法和机器学习方法,比如,K近邻方法、Bayes方法、决 3、覆盖算法 策树方法、神经网络方法、符号学习算法等I1. 。 经过以上步骤的预处理,一个文本就变成了用特征项 (词)
文档评论(0)