第二章 检索模型.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 检索模型

2.4 概率模型 2.4.1 概念及原理 利用概率论的原理,通过赋予标引词概率值来表示这些词在相关文献集合或无关文献集合中的出现概率,然后计算某一给定文献与某给定提问相关的概率。最后系统据此做出检索决策。 概率标引理论的基础是对标引词加权并利用权值来计算文献的相关值,即满足给定提问的概率值。 发展出三种模型 模型1 Maron(马龙)and Kuhns(库恩) 1960年提出概率标引理论: 给定某一文献D,对某一标引词来说,标引员要做这样的判断,如果某一个类型用户B判定D为相关,且在提问式中只用一个词,那他选择该词的概率有多大。 模型2 Robertson Sparck Jones 基本思想:标引阶段不对标引词进行加权,而是在检索阶段才导入概率检索机制。检索作业重复若干次,每重复一次,用户就对检出文献进行相关性判断,然后利用这种反馈信息,根据每个词在相关文献集合和无关文献集合中的分布情况来计算他们的相关概率。 模型3 同时做出两种预测,标引员选词标引时要预测文献对具有不同特性的用户的相关概率,用户选词检索时也要预测某词对具有不同特性的文献的相关概率 2.4 概率模型 概率检索模型有多种形式,常见的为第二概率检索模型,首先设定标引词的概率值,一般是对检索作业重复若干次,每一次检索用户对检出文档进行相关性判断。再利用这种反馈信息,根据每个词在相关文档集合和无关文档集合的分布情况来计算它们的相关概率,将词的权值设计为: 2.4 概率模型 其中P,P′分别表示某词在相关文档集和无关文档集中出现的概率。某一文档的权值则是它所含的标引词权值之和,于是,文档d与用户查询Q相关概率可定义为: 2.4 概率模型 其中pw和pw’分别为w在相关文档和无关文档中的概率。上式中右边和式是对所有出现在文档d和查询Q中的词w求和,即w∈d∩Q. 概率模型有严格的数学理论基础,采用了相关反馈原理克服不确定性推理的缺点,它的缺点是参数估计的难度比较大,文件和查询的表达也比较困难。 2.4 概率模型 2.4.2 特点 (1)概率检索模型的主要优点是: ①它显然注意到检索决策是容易出错的,故采用了一种理论上更为严密的方式来进行决策。 ②它容易与加权方法结合起来,为人们提供了一种理论基础。 ③它不涉及布尔算符的使用,回避了构造布尔提问式的困难。 ④文献可按用户的期望值来排序输出。 ⑤吸收了相关反馈原理,可开发出理论上更为坚实的方法。 2.4 概率模型 (2)它的主要缺陷是: ①布尔关系消失了(至少在早期的模型中是如此),“A AND B”和“A OR B”被视为等同。 ②增加了存储和计算资源的开销。 。 ③参数估计难度大。为此,人们提出了各种参数估计技术,如最大阈值估计法、相关反馈原理、最大熵原理等。 2.5 浏览模型 浏览是一种交互检索行为,用户先浏览系统文献,然后决定最终检索结果。对于大多数检索系统,用户在检索时都会表现出浏览行为,而不在乎系统的结构如何。 2.5.1 含义 基于浏览的检索要求用户处于结构化数据库中,用户在对信息理解吸收的基础上对数据库进行浏览。 有效的浏览系统数据库应具备几个条件: 能使用户把特定的信息需求定位在数据库感兴趣的文献集合中。 能使用户在做进一步检索时意识到用合适的方法进行查找。 能确保用户快速有效地浏览数据库。 2.5 浏览模型 2.5.2 对静态数据库的浏览 浏览静态数据库时,要确保数据库结构使用户易于理解且能提供有效的属性特征帮助用户浏览。比如按概念等级或文献登录日期等组织信息。 目前比较常用邻近网络相似度的方法,即在数据库中浏览时,先从一个款目开始,然后查找与其相似的其他所有款目,然后浏览最符合要求的信息。 2.5 浏览模型 2.5 浏览模型 清华同方出品的“中国期刊网”,提供了按相似浏览的功能。这种结构的数据库为用户提供空间角度浏览信息。同传统等级式系统把检索活动仅限于在特定区域相比,该系统允许用户进行多方位浏览。浏览系统要求包含有丰富的交互式词汇及联想词汇以帮助用户获取信息。邻近网络模型通过对数据库中各款目创建网络相关及创建不同网络间相似度来达到丰富交互式词汇及联想词汇的目的。 收集的数据有两种形式 举例:音像磁带数据库中有著者款目、出版商款目和出版年代款目。其他任何能描述文献对象特征的都能成为一条款目。所有特征款目积聚起来就能构成邻近相关网络。同时每个款目集能形成独立的邻近相关网络。丰富的相关网络集合能提供结构化浏览。适当的网络集设计和相似度度量方法的设计是浏览模型研究的重点。 邻近相关网络检索策略弥补了简单检索策略的不足。比如,如果用户同时找到两篇感兴趣的款目,首先要把选择距离最短的款目作为浏览对象,然后以此款目向外扩展,在邻近相关网络间浏览符合需要的信息。 2.5.3 遵

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档