基于中文多标签分类特征选择研究.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于中文多标签分类特征选择研究

基于中文多标签分类特征选择研究   【 摘 要 】 在中文多标签文本分类中,面临的一个主要问题就是如何降低文本巨大的特征维数,并且保持分类精度甚至提高分类精度。文本提出的特征选择方法相比于现有最常用的特征选择算法,更注重删除稀疏特征、保留更有区分度、有利于分类的特征。   【 关键词 】 特征选择;多标签分类;中文信息处理   A Study of Feature Selection for Multi-Label Text Classification   Zhou Hao Li Xiang Liu Gong-shen   (School of Information Security Engineering, Shanghai Jiao Tong University Shanghai 200240)   【 Abstract 】 In the Chinese text classification area, the main problems are how to low the feature dimension of the text ,and how to maintain the accuracy even improve the precision.This paper has put forward a method featured as the Single-Label classification result weighting, adaptive threshold adjustment,related information noting.   【 Keywords 】 multi-label classification;feature selcetion;adaptive regression related information noting   1 引言   如今,寻找一种有效的特征选择方法,降低特征空间维数,提高分类精度和效率,是文本分类需要面对的重要问题。目前常用特征选择方法主要有文档频数DF、互信息MI、信息增益IG和CHI方法 ,期望交叉熵,文本证据权,优势率,基于词频覆盖度等。这些方法的基本思想都是对每一个特征在这里是中文词,计算某种统计度量值 ,然后设定一个阈值T,把度量值小于T的那些特征过滤掉,剩下的即认为是有效特征。   在文本分类中,特征在文档类中出现的频率越不均匀,即特征分布得越离散,往往特征对类别判定越重要,利用这一性质可以考查特征在分类中的重要程度。离散度通常可以用标准差或方差来计算,本文使用特征在文档类中的概率标准差对特征重要性进行定量描述,此特征概率标准差将作为特征的基本权重参与文本分类。   2 特征选择的工作基础   2.1 信息过滤   过滤无用信息指的是去除文本中的一些无意义的文字内容及缺省符号,将有意义的文本内容提取出来,以回车符作分隔符进行分隔。   2.2 汉语文本自动分词   文本的特征表示是文本分类面临的首要问题。   2.3 汉文粗降维   粗降维指的是训练文本经分词后首先经过去掉停用词的处理,即为去掉一些没有实际分类意义的高频词、稀有词。本文中采用了建立停用词表,通过词表法去掉高频词和稀有词。   2.4 特征选择   考虑一个特征(词条)对某类别的重要性时,该特征在该类中出现与不出现不应同等对待,该词条出现比不出现要重要。在正特征中,应该选择只在该类出现或者只在少数几个类别中出现的特征。具有强类别信息的特征应该不是高频词条。   3 特征选择方法   3.1 强类别纹理挖掘算法   强类别纹理指的是文本中的某些特征强烈代表了其属于某一类别,其覆盖了某各类中尽量多的文档数目;强类别纹理具有最强的区分类的能力。强类别纹理选择过程。   (1)去掉泛滥纹理:对于每个类号,观察C-W链表中的每个W,如果W出现在每个类号中,则去掉这个W。   (2)标记强纹理:对于C-W链中的每个W,如果出现在主类别的概率大于次类别概率Ω%,则标记为强纹理。   (3)特征迭代。   1)结束条件:对于每个类,被标记的强特征和所有D-W链的交集非空,则算法结束。   2)去掉任意X篇奇异文档:如果D-W链表与所在类的C-W交集为空,说明该文档无分类代表性,去除该文档。满足结束条件,则算法结束。在数据库中增加列:交际是否为空、是否被当作奇异文档或者增加了强特征。   选择奇异文档或增加强特征的顺序:概念的权重、doccount、classcount等。   3)根据任意Y篇文档增加强特征:从D-W和C-W交集为空的文档中提取新特征并加入到C-W中,同时标记为强类别纹理。满足结束条件,则算法结束。   

文档评论(0)

189****7685 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档