- 1、本文档共13页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于word2vec的数字图书馆本体构建技术研究.doc
基于word2vec的数字图书馆本体构建技术研究
摘 要: 针对传统本体构建既费时又费力等问题,设计了一种基于Web的领域本体半自动构建方法,提出了基于word2vec的领域本体概念抽取算法,采用基于中英文词典的方法抽取同义关系,研究了基于特征向量的上下位关系抽取算法。最后将基于Web的领域本体半自动构建方法应用于数字图书馆气候变化领域,实践表明,该方法大大缩短了本体构建的周期,减少了人工参与。
关键词: 本体构建; 领域本体; 概念抽取; 关系抽取; 数字图书馆现状
中图分类号: TN911?34; G250.76 文献标识码: A 文章编号: 1004?373X(2016)15?0090?05
Abstract: To improve the time?consuming and strenuous situations existing in the traditional ontology construction, a domain ontology semi?automatic construction method based on Web was designed, and the domain ontology concept extraction algorithm based on word2vec is put forward. In this paper, the method based on Chinese?English dictionary is used to extract the synonymous relation, and the hyponymy extraction algorithm based on feature vector is studied. The domain ontology semi?automatic construction method based on Web was applied to the climate change field of the digital library. The practice results show that the method can shorten the ontology construction period greatly, and reduce the manpower participation.
Keywords: ontology construction; domain ontology; concept extraction; relationship extraction; digital library situation
0 引 言
本体构建是本体应用的基础,随着本体的理论研究逐步深入和在工程实践中的广泛应用,形成了许多的构建方法和构建工具。但本体的构建过程仍需要通过人工的参与,人们凭借一定专业领域知识,依据自己的知识和理解主观地判断概念之间的关系。这种依靠人的经验和知识积累的本体构建方式非常费时费力,成为领域本体发展的一个瓶颈。因此,为了减轻人工工作量,缩短本体构建的周期,人们期望可以自动半自动地构建本体,提高本体构建的效率和自动化程度,于是本体学习的概念就被提了出来。
本文对领域概念的抽取和领域概念间关系的抽取等关键技术进行了深入研究;采用了基于word2vec的领域本体概念自动抽取算法,并采用迭代算法,扩充领域概念的候选词集;同时,对领域概念间关系自动抽取的方法也进行了一定研究;最后,将基于Web的领域本体半自动构建方法应用于气候变化领域构建气候变化领域本体。
1 基于Web的领域本体半自动构建方法
本文基于本体学习技术,设计了一种基于Web的领域本体半自动构建方法,该方法包括领域信息采集、领域词典构建、本体学习、本体编辑和本体评价五大模块。其中,本体学习模块是构建领域本体的重点和难点,该模块主要采用机器学习技术、自然语言处理技术,结合语言学、统计学等知识,从大量领域数据中自动地抽取领域概念和概念间的关系。基于Web的领域本体半自动构建方法框图,如图1所示。
2 基于word2vec的领域本体概念抽取
领域概念获取是构建领域本体的基础工作,领域概念自动抽取是指从一定规模的自由文本中抽取出能够反映某一特定领域特征或共性的词汇。本文在研究相关算法的基础上,采用了一种基于word2vec的领域本体概念抽取算法。该算法如图2所示,共包含三部分:中文分词、领域概念候选词抽取、领域概念候选词评价。
领域词典的构建是概念抽取的基础,在中文分词环节,领域词典为其提供领域词汇,将领域词典添加到原有的分词词典中
文档评论(0)