一种改进的特征选取方法.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进的特征选取方法.pdf

科技信息 计算机与网络 一和改进的特征选取方法 中山大学南方学院 苑俊英 中山大学信息科学与技术学院 陈海山 【摘要】从人工分类的角度看,标题、摘要及关键词中的词条对于文本分类具有更重要的作用,在特征选取中低DF值的词条可能 更能代表文本的类别信息。针对以上两个问题,本文提出了基于类别核心词的特征选取方法。首先,从标题、摘要及关键词中提取类 别核心词;然后,通过加权方式,强化它们在特征选取中的作用;最后在朴素贝叶斯分类方法上进行实验。实验结果表明,提出的方法 能够有效提高中文文本的分类准确率。 [关键词]特征选取类别核心词 朴素贝叶斯 文本分类 0引畜 特征词w在不属于类别c;的文本中出现的概率,m为文本的类别数,那 特征选择是文本分类中的一个重要环节。在将文本表示成特征向 么特征词w的信息增益可以用下面的公式计算: 量时,原始特征空间由出现在文本中的所有词条组成,无论采用什么样 I_) IG怍一∑;。P蚴l。gP协P(w)∑:。P(cj1w)loB(ej1w)+Pff)xg。P(cj 的文本表示模型,中等规模的文本分类问题所对应的原始特征空间通 常都高达几万维,甚至更高维。如果直接在这样一个高维特征空间上进 losP(cjI_) 由于文本分类经常是多类的,所以,我们需要知道对于所有类别。w 行分类器的训练和分类,一方面会使文本自动分类的计算量过大,另一 方面在训练样本容量一定的前提下,过多的特征会使样本统计特征的 的总体信息增益值,常见的算法是将词条W对应于各个类别的信息增 估计变得非常困难,从而降低统计分类器的推广能力。而要避免推广能 益求和,公式如下所示: 力的下降,用于统计分类器训练的训练样本个数必须随着特征维数的增 IG(w)=-X,。lG(w,旬 长而增长,从而造成人们所说的“维数灾难”(course ofdimensionality)。 信息增益的不足之处在于,它考虑了特征不出现的情况,虽然某个 因此,在分类器对训练文本进行训练之前,在不影响分类准确率的 特征不出现也可能对判断文本类别有贡献,但实验证明,这种贡献往往 前提下,减少原始空间的维数(也称降维),将特征维数压缩到与训练文 远小于考虑特征不出现情况所带来的干扰。 本个数相适应的情况。降维就是从原始特征空间中提取出部分特征的 1.4x2统计(cm—squared) 过程。它的主要目的就是提高程序的效率和分类精度【l】。 x2统计量作为一种常见的统计量,可以检验特征词W和类别c,之 近年来,在中文文本自动分类中使用较多的特征选取方法包括文 间是独立无关还是具有显著的相关关系。假设A为训练文本集中特征 本频率DF(Document Information)、信息 Frequency)、互信息MI(Mutual 词W和类c;同时出现的次数,B为特征词W出现而类c。不出现的次数, 增益IG(InformationGain)和统计(CHI)等闭。本文首先简单介绍了几种 c为特征词w不出现而类c,出现的次数,D为特征词W和类c。都没有 特征选取方法,然后提出了一种改进策略,并在朴素贝叶斯分类方法上 出现的次数,N为训练文本集中样本总数,那么,则W对于c。的CHI值 进行了实现。实验表明,改进的特征选取方法大大提高了特征词的代表 由下式计算: 性,从而提高了分类精度

文档评论(0)

整理王 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档