第二章 关键短语和词语表.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 关键短语和词语表

PAGE 8 PAGE 9 基于关键短语的文本分类研究本文承 本文承“国家语言资源监测”(项目号:L2004-01-01-04)资助,特此致谢! 刘华刘华, 刘华,1975年生,男,博士,讲师,研究方向:计算语言学,信息检索 (暨南大学 华文学院/海外华语研究中心,广州 510610) 摘 要: 文本分类的进一步改进不在算法方面,应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,提高特征项的完整独立程度。关键短语是具有强文本表示功能的特征短语,在表示文本时,能将文本的内容特征(如主题类别)鲜明地表示出来。关键短语具有结构稳定、语义完整和强统计意义的特点,能克服向量空间模型和贝叶斯假设的缺点,更适合作为文本表示的特征,有利于提高文本分类的效果。本文从语言学、认知心理学和言语习得、计算语言学等方面寻求关键短语优势的理论依据,对关键短语进行了界定,通过抽取网页上专家标引的关键词获得关键短语。在约3万篇测试集上(共15个大类,244个小类),与以词为特征的文本分类相比,以关键短语为特征的文本分类的大类微平均提高了3.1%,小类微平均提高了15%。 关键词: 文本分类;关键短语;文本表示;特征项 Text Categorization Based on Key Phrases Liuhua (College of Chinese Language and Culture, Jinan University, Guangzhou, 510610) Abstract: Improvement in text categorization lies not on algorithm of classing model, but on the fundamental element: integrated and independent feature of text representation. Key Phrases are phrase that have strong text representation function, can characterize text content such as subject and kind. With steady structure, integrated meaning and statistical significance, Key Phrases can overcome the limitation of VSM (Vector Space Model) and NB (Naive-Bayes), are fit for feature of text representation, and are propitious to improving effect of text categorization. From linguistics, cognitive psychology and computational linguistics, we searched the base of theory of Key Phrases’ advantage, defined Key Phrases, and acquired them by extracting key words labeled by specialist in web pages. The experiment proved that Key Phrases are fitter for feature of text representation than words: MicroF1 increase of 3.1 percent of parent- category, MicroF1 increase of 15 percent of sub- category. Key words: text categorization; Key Phrases; text representation; feature 文本分类的理论研究比较成熟,而且也出现了一些初步的应用系统。文本分类的研究主要围绕算法方面进行,如特征提取、权重计算、分类模型的算法的分析与改进。相对来说,文本分类需要的资源方面研究的较少,如文本表示中特征项的粒度选择和获取,特别是概念、短语、词和字究竟哪个更适合作为文本表示的特征项的问题缺乏系统的研究。我们认为文本分类的进一步改进不在算法方面,应该立足于影响文本分类最底层、最根本的因素:文本表示中的特征项,文本分类的改进应该专注于提高特征项的完整独立程度。 相对于字、词和N元组,关键短语(Key Phrases)结构稳定、语义完整、统计意义较强,更有利于表达文本内容

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档