非相关文献知识发现初始集过滤方法试验研究.docVIP

非相关文献知识发现初始集过滤方法试验研究.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非相关文献知识发现初始集过滤方法试验研究

非相关文献知识发现初始集过滤方法的试验研究   [摘要]在对现有非相关文献知识发现的初始集过滤方法进行分析的基础上,提出基于副主题词和基于共现语义群两种过滤方法。以Swanon的早期发现之一为对照进行试验,考察经两种方法过滤后中间集B的范围以及目标关联词和目标关联对的出现情况,以此作为评价其对B影响的依据。结果表明两种过滤方法均可提高B的质量,从而提高发现效率。   [关键词]非相关文献知识发现初始集副主题词语义群   [分类号]G353.1      1986年,美国芝加哥大学Swanson教授提出了基于非相关文献的知识发现。ABC是其基本的发现模式,在应用中进一步演化为开放和封闭两个发现过程。开放过程是由A开始,通过B来寻找与A具有潜在关联的c。其中,A称为初始集,B称为中间集,c称为目标集。封闭过程是由假定A和c存在关联开始,来寻找连接A和c的可能关联B。这里,A和C均可称为初始集,B可称为中间集或目标集。由此可见,ABC三个集合的质量直接关系到发现的质量,其中涉及多方面的问题,本文仅对初始集过滤方法进行研究。      1 现有研究及其不足      对于非相关文献知识发现中初始集的形成,有研究者采用最简单的提问式来构建。研究者认为知识发现应是基于一个大的初始集,在发现过程的始端形成一个粗的范围宽泛的初始集是必要的,只有该集合的范围足够大,才不至于遗漏可能的潜在关联。但是,非相关文献知识发现是以预期发现类型为前提的,具有方向性和目标性。一个粗的初始集会形成大量的中间概念,进而形成大量的目标概念,会大大增加筛选工作量,同时也会形成大量的虚假关联。因此,在形成初始集的过程中进行过滤是必要的。   目前采用的过滤方法包括一体化医学语言系统(Unified Medical Language System,UMLS)语义类型和停用词表。就UMLS语义类型过滤方法来看,虽然语义类型在确定领域知识时很有意义,但是在实际应用中则需要从134个语义类型中为每一个发现任务进行选择。其缺点是需要大量的人工参与,也会产生语义类型的歧异理解和错误映射。对于采用停用词表的过滤方法,其主要问题在于词表的长短。短停用同表只能滤???常见词和无意义词,过滤效果有限;而长停用词表则可能产生过滤过度,滤掉一些有意义的词。而目.针对不同的发现对象,停用词表的长短及具体的构成词也会发生变化。因此,利用停用词进行过滤只能保证基本的过滤效果。      2 方法改进      2.1 基于副主题词的过滤法   非相关文献知识发现中初始集的形成,其实质是一个检索过程。因此,能够提高检索质量的方法,均应有利于构建初始集。虽然副主题词对于提高检索质量具有重要意义,但在非相关文献知识发现中尚未对其所起作用进行深入研究。   主题词是表达文献主题概念的规范性语词,主题概念间存在着各种逻辑关系。逻辑学上将概念上有关联但不如等同关系、等级关系严密的关系称为类缘关系或不确定关系,包括因果关系、影响被影响关系、应用关系和相关关系等。由于这些逻辑关系划分的不确定性,常常导致虚假组配的产生和语法歧义。副主题词对主题词起方面限定作用,这种限定是对主题词自然属性的限定,通过这种限定使模糊的、不确定的逻辑关系明确下来,即副主题词能对主题概念间的类缘关系进行揭示。据此,对某一主题进行知识发现的过程中,针对发现的可能类型,分析与初始概念之间的逻辑关系,组配恰当的副主题词,从理论上讲能提高中间集和目标集的准确性,从而提高发现效率。      2.2 基于共现语义群的过滤法   UMLS主要由超级叙词表(metathesaums)和语义网络(semantic network)构成。其中,语义网络包括134种语义类型(semantic type,ST)和54种语义关系(semantic relation,rel),用以标引超级叙词表中的概念及其相互之间的关系。因此,在非相关文献知识发现中常会利用语义类型进行过滤。但语义类型在应用中又显得过于复杂,为了减少其复杂性,有研究者提出了语义类型的上位概念――语义群(semantic groups。SG),即按一定的原则将134个语义类型归为15个语义群。   语义群一经形成,它们之间必然会存在着语义关联。在UMLS的语义网络中,每一个语义关系rel是指两个语义类型ST1和ST2之间的关系。因为每一个语义类型都会归属于一个特定的语义群,因此,两个语义群之间的关系(SG1,rel,SG2)可以被认为是通过两个群中的语义类型之间的关系(STl,rel,ST2)联系起来的。根据对UMLS语义网络的下载文件SRSTR的统计发现,15个语义群间的关系强弱不同。据此,在一个语义群对中,与两者共现的语义群也将存在着强弱不同的关系。

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档