中文学科术语相关语义关系获取方法探究.docVIP

中文学科术语相关语义关系获取方法探究.doc

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中文学科术语相关语义关系获取方法探究

中文学科术语相关语义关系获取方法探究   (1.南京大学信息管理学院 江苏南京 210023) (2.江苏省数据工程与知识服务重点实验室 江苏南京 210023) 摘 要:文章对中文非结构化文本中(半)自动获取学科术语的相关语义关系进行了探讨,以寻找行之有效的获取方法。从CNKI获取“数字图书馆”学科领域文献,通过术语抽取、动词抽取、向量空间模型构建、双重关联规则分析和规则评价获得了具有较强关联的术语对以及作为关联标签的动词,从而获取了学科术语的相关语义关系。该获取方法与其他方法相比,具有较高的可行性和有效性,并对术语的相关语义关系进行了有效性和实用性的评价,提高了获取的准确率。但文章也存在一定的局限性,在对术语相关语义关系的有效性和实用性进行评价时,指标的选择和阈值的确定存在人工干预,具有一定的主观性 关键词:学科术语;相关语义关系;数据挖掘;关联规则;规则评价 中图分类号: G202 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2017041 1 引言 学科术语的语义关系总体上可分为两大类:分类语义关系(层次语义关系)和非分类语义关系,本文将非分类语义关系称为相关语义关系。层次语义关系和相关语义关系均是学科知识本体的重要组成部分,它们将学科术语按照语义关系进行组织,为学科知识的有哪些信誉好的足球投注网站、重用及进一步理解提供条件[1]。在文献[1]中,作者对如何借助知识自动获取方法和技术获得领域术语的层次语义关系进行了研究,本文将探讨如何从中文非结构化文本中(半)自动获得学科术语的相关语义关系 相较于层次语义关系,相关语义关系的获取更为困难,目前国内外对此的研究也较少,常用的获取相关语义关系的方法之一是普通关联规则分析。该方法能获取术语的相关语义关系,但只能获得具有相关语义关系的术语对,而不能获得关系的标签[2] 本文将术语的相关语义关系限定为的三元组关系,试图在建立句子-术语向量空间模型和句子-向量空间模型的基础上,引入双重关联规则分析以及规则评价,由此形成一种从中文非结构化文本获取学科术语相关语义关系的具体方法。双重关联规则分析还没被发现应用在学科术语相关语义关系的获取中,因此,本文尝试引入该方法获得术语的相关语义关系,并借助相关指标来评价规则的有效性和实用性 2 理和验证,使得获取的相关语义关系质量较高;Mei Kuan Wong等[6]提出基于一种多步骤相关研究框架从非结构化文本中获取术语的相关语义关系;Ivo Serra等[7]采用两个过程对获取概念相关语义关系的多种技术和方法进行了评价,并在生物学领域语料库和法律领域语料库中进行了验证;Martin等使用扩展的关联规则获取术语的相关语义关系以及给出了关系的标签,并且基于已有语义标注的语料库对方法进行了评估[8] 董丽丽等[9]首先通过关联规则抽取特定领域术语对,接着抽取术语对之间的高频动词,将它们作为候选相关语义关系标签,然后运用VF×ICF度量方法确定相关语义关系的标签;古凌岚等[10]运用语义角色标注和依存语法分析获取文本句子的语义依存结构,提取出具有语义依存关系的动词框架,通过语义相似度计算发现动词框架中术语间的相关语义关系和关系标签;邱桃荣等[11]通过分析概念粒的上下文,构建了基于不同领域概念粒度空间的概念粒交叉关系学习模型,有利于实现领域本体相关语义关系的获取;王红等[12]提出了基于NNV(名词-名词-动词)的关联规则获取术语相关语义关系及其标签的方法;张立国等[13]对语料进行词性标注和语义分析,得到具有语义依存关系的动词框架,然后再计算句子的相似度,抽取出术语的相关语义关系并给出关系的标签;谷俊等[14]在关联规则中加入谓语动词进行相关计算,结合有哪些信誉好的足球投注网站引擎技术抽取候选相关语义关系,在此基础上对置信度和支持度进行对比分析,抽取出最终的相关语义关系 综上可知,国内外学者尝试通过关联规则分析、语义依存分析等来获取术语的相关语义关系,而关联规则分析的应用又较多。作为相关语义关系标签的动词的获取还没有形成有效统一的方法。此外,上述方法对于所获规则的有效性和实用性并没有进行评价 本文将构建句子×术语向量空间模型、句子×向量空间模型,进行二重关联规则分析以获取具有相关语义关系的术语对以及语义关系的标签。在进行关联规则分析的过程中,引入一系列指标来控制规则的有效性和实用性,从而提高术语相关语义关系获取的质量 3 学科术语相关语义关系获取方法 本文重点探讨基于双重关联规则分析和规则评价从非结构化文本获取术语相关语义关系的方法和过程,这里的非结构化文本由学科期刊论文的标题、摘要和关键词构成,获取思路和方法(见图1) 3.1 术语抽取 科研人员是学科术语动态变化过程的直接参与者和见

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档