- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于本体词汇语义倾向计算
一种基于本体词汇语义倾向计算摘要:词汇倾向性计算是自然语言处理研究领域的一个新的热点。词语倾向性的判定是意见挖掘的基础和重要环节。本文基于本体概念提出了一种词汇语义倾向性计算的方法。实验表明,本文的方法在汉语常用词中的效果较好,词频加权后的判别率更高,具有一定的实用价值。
关键词:本体语义倾向中文信息处理
0 引言
词汇语义倾向性是近年来中文信息抽取领域研究中一个新的研究方向,它是一门交叉学科,涉及到信息检索与计算语言学的领域,所产生的研究点来自意见挖掘。意见挖掘并不是针对文档所谈及的话题进行研究,而是对文档表达的倾向性观点,即肯定或否定的意见进行研究。
意见挖掘任务分为以下几步:一是对文档中的主观性词语或短语进行识别,二是对其进行倾向性的判定。三是结合其倾向性与句子结构来分析,获得句子的对倾向性。四是获得段落或篇章的倾向性。
词汇倾向性是意见挖掘的基础环节,目前已经受到研究人员的广泛关注。
基于HowNet与基于同义词词林的词汇语义倾向性分析法是目前已有的中文词语语义倾向性分析法中最主要的两类。
如复旦大学的朱嫣岚等获得新词倾向性的方法是,在手工选定少量的基准词后,利用HowNet来对新词和基准词的相似度进行计算。上海交大的娄德成等获得新词语义倾向性的方法是,通过手工进行HowNet包含的所有词条的倾向性标注,并且由一定量的极性词语组成种子集合最终形成褒贬词语词典,将不包含在词典中的所有新词进行新词与种子集合中词语的互信息计算。[1]北京大学的路斌等使用同义词词林,把种子词汇扩展到更大的褒贬义词集合。另外还有的进行词语语义倾向性研究的方法是使用机器学习统计等。
现有的相关研究都取得了好的成果。但是,大部分的词语都是具有唯一倾向性,只有少数的词语在不同的语言环境中具有多倾向性。本文的主要内容就是建立本体词库在一定程度上分析这种情况。
1 本体词汇构建
以本体为基础组织的信息,可以通过各种知识表示方法如“产生式表示”“框架表示”“元组”等将其整合到知识库中,该知识库的特点是既可以对常识和领域知识进行存储和处理,又可以进行词语分类方面的处理。除此之外,有本次建立的词汇还可以在Web环境下分布并保证唯一性、一致性、高效性,实现准确和高效的有哪些信誉好的足球投注网站。传统的词汇语义倾向计算缺乏实体之间的联系,在知识表示方面存在不足。本体技术的引入,阐明了实体之间的联系,有利于分析一些多倾向性词的极性。
现今,本体在许多领域得到了广泛应用,它在构件语义Web、语义理解、数据挖掘等方法有很重要的意义。本体是对研究对象在向量空间上的研究,将研究对象划分后建立相对的元组,然后再进行分类研究。
在构建本体词汇库时,通过查找褒贬词典来对词库进行扩种,按同义词词典进行语义群的分类,同一群内的词语不能有不同的倾向性。
如昂扬、奋发、高昂、振奋为一个同义词群,倾向性为褒义。败北、铩羽、失败、失利、战败是一个同义词群,倾向性为贬义。当处理的词语不在褒贬义词典内时,通过同义词词典查找其同义词群,以同义词群的倾向性作为该词的倾向性,当褒贬义词典内没有要处理的词语时,应通过同义词词典查找,该词的倾向性与其同义词群的倾向性相同,最终确定录入本次词汇中。
在倾向性研究中,本体旨在解决特征词汇的细粒度划分,以此为基础解决话题倾向性细粒度划分,以此为基础来解决词汇倾向性细粒度划分。词汇本体[2]是话题语料中的特征词划分的依据,为此必须收件建立词汇本体。基于基本概念和角色概念建立本体[3]。正面词汇分为喜、乐、赞、真、善、美;负面词汇分为怒、哀、惊、假、恶、丑。以(P,V)二元组来描述词汇本体中词汇的极性(polarity)、倾向性程度(value)属性(-1≤value≤1),正面词汇值为证,负面词汇值为负。例如,“暴怒”的属性为(负面,-0.91),根据其上面概念可以确定词汇的种类为“怒”。除此之外,还可以用词性、高频左右搭配词、近义词、反义词等属性来解释词汇本体中的概念和实例。这样构件的本体词汇就给出了词汇倾向性的细粒度。
2 词汇的语义倾向性计算
我们为每个词汇都赋予一个语义倾向的度量值[4]。与基准词语义关联的紧密程度决定了度量值的大小。基准词是一些具有代表性的褒贬词。与褒义基准词联系紧密,它的褒义倾向就较明显,反之,它的贬义倾向就比较强烈。
在上面设想的基础上,所设计的方法如下:
假设由一个褒义词和一个贬义词组成一对基准词,而这样的基准侧在文体词库中有k对,用k_l来表示褒义基准词,k_m表示贬义基准词,V(w)表示词汇w的语义倾向值,,以0作为默认的阈值以0作为默认的阈值,最终倾向值大于阈值的为褒义,小于阈值的为贬义。V(w)数值的大小代表词w的褒贬强烈程度。
词w
文档评论(0)