基于叙词表知识单元检索系统设计.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于叙词表知识单元检索系统设计

基于叙词表知识单元检索系统设计   摘要 通过调查总结叙词表在文献数据库中的应用现状,在此基础上设计一个基于叙词表的文献数据库知识单元检索系统。该系统首先将数据库中的文献分解为知识单元,检索时用叙词表中的正式叙词对用户输入的检索词进行规范化处理,并将该正式叙词作为中心词,利用叙词表中的词间关系查找出该词的等同词、上下位词和相关词作为扩展检索词,对知识单元进行加权检索,按权值之和以及检索词的密集程度排序输出。经实例分析,具有可行性。   关键词 词间关系 加权检索 叙词表 知识单元   分类号 G350      叙词表从出现至今,经过长期的发展和完善,已在传统文献标引和检索中取得巨大成功,正在向网络应用发展。但不管是传统文献检索还是网络文献检索,系统为用户提供的都是整篇文献,而非直接反映需求的知识单元。知识单元是随着知识服务发展起来的,旨在直接为用户提供有用的知识点,而非文献单元或信息单元。王子舟将“知识单元”定义为“客观知识系统中有实际意义的基本单位”;文庭孝认为“知识单元是指在知识管理中可以对关联知识进行独立、自由、有效识别、处理与组织的基本单元”。本文设计了一种利用叙词表检索文献数据库中知识单元的方法,进而探索叙词表在文献数据库知识服务中的应用方式和前景。      1 叙词表在文献数据库中的应用现状      叙词表提供了比较规范和全面的检索词体系,对多义词和同义词进行了控制,从而保证了信息检索的检全率和检准率。在标引过程中,可依据叙词表通过人工或自动化方法确定文献的叙词描述,形成叙词字段,从而更加准确、规范、全面地描述文献主题。检索过程中,可利用叙词表中的正式叙词对用户检索词进行规范化控制,还可以利用词表中的词间关系实现一定程度的扩检和缩检。      国外基于叙词表词间关系的信息检索研究早在20世纪90年代初就已出现。Fowler R H等曾提出在一个统一的可视化界面上整合用户提问、叙词表和文献信息。他们认为叙词表中的相关关系网络和文献间相互关系可对检索目的起到辅助作用。Voorhees EM也曾对叙词??词间关系在检索扩展中所起的效果进行实证研究主要利用WordNet中的词间关系对文献进行基于词义的自动标引,在此基础上,分别对两种标引结果进行基于向量空间模型的检索实验。但实验结果表明,与词形匹配效果相比,这种基于词间关系扩展的查询语句并没有明显改善检索效果。NieJianyun和Brisebois M则认为,向量空间模型并不适用于这种类型的检索式扩展,它将使扩展检索式的质量很大程度上依赖叙词表关系的结构;而且WordNet是一个非专业词表,它的词间关系设置不严格,领域范畴也不规范,因此将WordNet用作叙词表不具有代表性。   与网页信息更新速度快、类型复杂、质量参差不齐等特点相比,文献数据库中的文献更符合叙词表规范化控制、学科设置严格的特点,因此近年来叙词表在检索系统中的应用更多地体现在文献数据库中,例如:英国国家数字档案馆NDAD,ERIC数据库,MeSHDatabase,ISI Web of Knowledge的INSPEC,Engi-neering Village等国外文献数据库。在目前的应用中,叙词表主要用于帮助用户选择适当的正式叙词作为检索词,个别数据库为用户提供的叙词字段,在一定程度上保证了检全率和检准率。以ERIC数据库为例,输入检索词“Agricuhure”,分别利用关键词(Key-words)、题名(Title)、叙词(Descriptors from Thesaurus)进行检索,得到的结果如表1所示:      由此可见,使用叙词检索可以获得比关键词检索更加准确、比题名检索更加全面的检索结果。   但在实际应用中,叙词字段的建立还不能由计算机自动完成,需要大量标引人员的参与,费时费力,人工建立叙词描述的方法并不可取。另外,文献数据库展示给用户的检索结果大多是以整篇文献为单位的著录信息,如题名、摘要、关键字、作者等,属于文献单元’层次,没有深入到文献的知识层次,即知识单元,用户往往需要阅读完整篇文献后才能确定其是否有用。为了同时满足检索需求和效率,文献数据库的检索结果应该是能直接解决用户问题的知识单元,而这些知识单元又应该以叙词表为依托,才能保证其准确性。      2 系统总体设计      本文结合叙词表、文献数据库的特点以及用户需求,利用叙词表中规范的词间关系,设计了一个数据库中知识单元的叙词加权检索系统,该系统的总体结构如图1所示:   本系统主要分数据加工、规范化和检索三部分:      2,1数据加工   将文献转换为文本格式,便于进行切分处理。本系统将以自然段落作为知识单元的粒度,因此要将文献切分为以段落为单位的片段,并对其进行

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档