基于语义关联和信息增益的TFIDF改进算法研究.pptVIP

基于语义关联和信息增益的TFIDF改进算法研究.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于语义关联和信息增益的TFIDF改进算法研究

基于词频反文档频率(TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。 文本分类通常有文本的预处理、文本的向量空间模型表示、文本特征提取和分类器的训练四个步骤。在研究文本分类的过程中,特征提取是最关键的环节之一,可以起到降低向量维数、简化计算、去除噪声等作用。故而,特征提取的好坏将直接影响文本分类的准确率。特征提取的基本思想是构造一个评估函数,对特征集中的每个特征词进行权重计算,然后对所有的特征词按照其权重值的大小进行排序,选择预定数目的最佳特征作为最终的特征子集。在文本分类中常使用的特征选择方法包括文档频率(document frequency)、互信息(mutual information)、信息增益(information gain)、χ2 统计(CHI)、期望交叉熵(cross entropy)、文本证据权(the weight of evidence for text)、优势率(odds ratio)和词频反文档频率等。 对于传统的TFIDF 特征提取算法,目前已有文献对其的不足进行分析及改进,效果比较显著的是通过引入信息熵对其进行改进,解决了词语在类别间的分布不均造成的问题。比如字面不同的词语但可以表示同一个含义,这样的一组词的语义特征是一样的,不能忽视它们共同出现对词频的影响。若忽视了语义,就无法准确表达文档的内容,同时也会影响计算特征词权值的精确度。之前的大多工作是计算独立的字或词的权重值,以选出特征词,很少涉及词汇语义部分的研究,容易忽视多义词和同义词现象。本文针对这一问题,先对词语进行语义信息的分析,然后将有语义关联的归为一组,进而分析信息熵,改进信息增益的公式,提出一种新的基于语义关联和信息增益的TFIDF特征选择算法。实验结果表明,改进后的特征选择算法,在文本分类的查准率和召回率两方面均有不同程度的提高。 在文本分类领域中,最常用的是Salton在1975年提出的向量空间模型(VSM)。 VSM 将文本di看做向量空间中的一个n 维向量(t1,w(t1), t2,w(t2), t3,w(t3),?, tn,w(tn)),则t1, t2, t3,?, tn是该文本的特征词,w(ti),i=1,2,3,…,n 是该文本对应的第i 个特征词的权重值。 对文本文档进行分类主要依据文档的内容,而特征词的权重值便是刻画词语表达文档内容的重要指标。权重值的计算按其值类型通常分为以下两种 : a)布尔型,即将所有训练文档的词语作为全集,当一个词语ti 出现在文档中时,其权值设为1,否则设为0; b)实数型,将文档的词语通过权重计算公式求出其权重值。 显然,传统的TFIDF特征选择方法中,某个词语的权重值与该词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足,即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个词语均匀分布于各个类别中,那么对分类的贡献是微乎其微的,不能很好地区分类别。相应地,它的权重值应该比较小,但是按照传统TFIDF 算法得出的权重值却比较大。上述两个明显的缺点主要是因为TFIDF 将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。针对这个问题,文献对传统TFIDF 方法进行了改进,引入了信息熵与信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文本内容表达的完整性,对文本分类有一定的影响。本文在基于语义关联的前提下计算信息熵,对权重值的计算方法进行改进。 熵是德国物理学家克劳修斯于1850 年提出的,表示一种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越大。1948年,Shannon 把熵应用于信息处理,提出了信息熵的概念。信息熵在随机事件发生之前,是结果不确定性的量度;在随机事件发生之后,它是人们从该事件中所得到信息的量度(信息量)。 设随机事件X 在获得信息y 之前结果的不确定性为 H(X),得到信息y 之后为H(X |y),那么包含在消息y 中的关于

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8010045112000002

1亿VIP精品文档

相关文档