- 1、本文档共10页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云南种子植物特有属领域词语相似度算法探究
云南种子植物特有属领域词语相似度算法探究 摘要:以《同义词词林》为基础,结合云南种子植物特有属领域知识补充了《同义词词林》中该领域的词语,并提出了一种基于同义词词林的词语相似度改进算法。经过测试对比,在植物检索领域该计算方法比一般的基于同义词词林的词语相似度算法更加准确,而且召回率得到了明显提升,更适用于云南种子植物特有属领域信息的检索
关键词:同义词词林;词语相似度算法;云南;种子植物;特有属
中图分类号:Q949;G354.4 文献标识码:A 文章编号:0439-8114(2017)07-1356-03
DOI:10.14088/j.cnki.issn0439-8114.2017.07.040
Research on Algorithm for Calculating Word Similarity in the Field of Endemic Genera of Seed Plants in Yunnan
LU Guo-quan,PENG Lin,PANG Xue
(Key Laboratory of Agricultural Information Technology in Yunnan,Yunnan Agricultural University,Kunming 650201,China)
Abstract:An improved word similarity algorithm put forward based on cilin combined with the knowledge of the endemic genera of seed plants in Yunnan supplement the words about this field. Experiment results illustrate that this improved algorithm for calculating word similarity based on “cilin” is more precise than general algorithm for calculating word similarity based on “cilin” and recall has been significantly improved. Therefore,this improved algorithm is more suitable for the semantic retrieval system in the field of endemic genera of seed plants in Yunnan.
Key words:cilin;algorithm for calculating word similarity;Yunnan;seed plants;endemic genera
词语语义相似度来源于计算机语言学等领域,它可以度量术语、词汇、概念之间的相似程度,被看作概念在分类上的相似程度[1]。词语语义相似度的计算在语义检索、自动问答、文本聚类等应用中起着重要作用[2-4]。传统的检索方式仍基于关键字匹配和倒排索引[5],几乎没有任何语义功能。通常,传统检索方式不能理解用户的查询意图,一旦用户输入不准确的查询词就会得到许多不相关的结果。将词语语义相似度计算引入检索系统后,检索系统便具备了语义功能,就算用户输入模糊的查询词,检索系统也能检索出用户所关心的信息
目前,对于词语语义相似度的计算方法主要集中在以下几方面:①基于?y计的方法,假设语义词语相似的词语之间具有相同的上下文关系,以上下文信息的概率分布作为依据,利用词语之间的相关性来计算词语相似度[6];②基于本体的方法,依据领域内专家建立的领域本体,利用该领域知识的语义树来计算词语间距离词语的相似度[7];③基于语义词典的方法,利用语言专家编撰好的语义词典进行语义相似度计算
由于基于同义词典的词语相似度算法具有实现简单、高效、直观、易于理解且不需要训练的特点,因此基于同义词词典的词语相似度算法在各个领域得到了广泛的应用[8]。但是目前还存在以下问题:①词典的词条更新不及时。由于基于同义词典的词语相似度的计算依赖于语义词典,而编撰词典通常需要多名顶级语言专家共同完成,网络时代的知识爆炸使得词典滞后于新兴词语的出现。②领域内的专业词汇收录不全。每个领域有不同的专业知识和词语,语言专家作为语言领域的专家,在编撰语义词典的时候很难将所有专业领域内的词语囊括其中
面向云南种子植物特有属领域的语义检索能最大限度地集成和利用各类云南种子植物特有属相关信息资源,快速、完整、智能地提供各种信息服务,这已
文档评论(0)