基于义类的无导词义消歧方法的研究论文.pdfVIP

基于义类的无导词义消歧方法的研究论文.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于义类的无导词义消歧方法的研究 全昌勤1何婷婷1姬东鸿2 (华中师范大学计算机科学与技术系武汉430079) 19613) (新加坡国家科技局信息科学研究院,新加坡1 com E-mail:quanchqin@sohu 摘要: 词义消歧在自然语言处理的许多应用领域都起着十分重要的作用。为了适用于大规模 的词义消歧,提出了一种无导的学习方法。基于向量空间模型,结合机读词典和义类词典建立 从义项到叉类的映射关系,再利用义类知识在语料库中无导学习消歧特征,最后利用这些特征 实现词义消歧。 关键词:自然语言处理; 词义消歧;无导方法;义类 引言 多义词的自动消歧在20世纪50年代初开始引起计算语言学家的兴趣和关注,并被认为是~ 个影响着自然语言处理领域中许多其他应用问题的一个“中间问题”…,如机器翻译、信息检 索、语法分析、文本处理,自动文摘等,同时也被认为是自然语言处理领域训汇级别最困难的 问题。 根据消歧知识获取方法的不同,词义消歧方法主要可分为三类:基于规则的方法、基于词 典资源以及基于语料库的方法。基于规则的消歧方法主要是依赖语言学专家的语言知识,构造 规则库,通过分析多义词所在的上下文,选择满足一定规则的义项。但由于一般是凭人手工编 制,因此存在着很大的主观性和不完备性。基于词典资源的方法主要包括机读词典和使用义类 词典两种,机读词典是通过计算词典中对多义词各义项定义中的词汇和多义词所在的上下文词 汇的覆盖量,选择覆盖量最大者进行义项标注。与机读词典不同的是义类词典是按照词语的语 义关系组织的.通过选择多义词与其上下文词语的概念的相似性进行义项标注。基于规则的方 法和基于词典的方法的最大问题在于用于消歧的知识是固定和非常有限的,难以满足自然语言 丰富的变化。为了获取大量真实的消歧知识,基于语料库的方法以语料库为知识源,从标注或 未标注语料中学习各种不同的消歧特征用二F词义消歧。根据语料库是否标注,基于语料库的方 法又可以分为有导和无导的消歧方法,由于手工构造大规模具有词义标注的语料库十分困难。 有导的消歧方法很难获得较好的学习效果和实现大规模的多义词消歧,因此无导的消歧方法开 始引起关注。 本文提出的基于义类的无导消歧方法在知识结构上和实现上具有如下特点: (1)基于向量空间模型,结合机读词典和义类词典建立从义项到义类的映射关系,避免 了由人工给出无导学习的初始知识所带来的主观性.实现了真正的无导; (2)通过种子类码在语料库中无导学习,高效的获取消歧特征: 1基于义类的无导词义消歧方法 无导词义消歧方法中很关键的~个问题就是提供无导学习的初始知识,目前已有的无导消 歧方法中主要采j}{人工给出这些初始知识,如鲁松等的基于向量空间模型中义项词语的无导词 义消歧方法通过人为指定义项词语作为初始知识”j,Yarowsky通过人工选择质量较好的搭配实 例作为最初的种子,而后使用主题约束扩大搭配实例的消歧方法”1。尽管人为提供初始知识与 117 多义词标注相比节省了巨大人力,但仍避免不了人为的主观性。本文提出的方法基于向量空间 模型,结合机读词典和义类词典建立从义项到义类的映射关系,再利用义类词典中的知识作为 无导学习的初始知识,从而实现了真正的无导。 1 1 基于向量空间从义项到义类的映射 词义标注中,义类体系的选取是很重要的环节。《同义词词林》”1是在层次树的语义框架 上建立起来的,它将词按意义分为12个大类,94个中类,1428个小类,小类下再以同义原则划 分词群,形成树形义类体系,采用8位符号串编码。我们用其作为消歧的义类资源,但《词林》 中收录的词量有限,对于其中没有收录的词,如人名、地名和其他专名等.我们按照它的分类 规则做了适当的扩充。 由丁.多义词根据其不同的义项在《词林》中分别属于不同的义类,要通过义类知识无导的 学习更多的消歧知识首先就需要建立多义词义项到义类的映射关系。该映射的建立是以向量空 间为基础的.向量空间模型表示方法是在文本

文档评论(0)

bb213 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档