- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二课信息检索模型
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 初始化方法 由于我们在开始时并不知道集合R,因此必须 设计一个初始化计算 和 的算法。 在查询的开始间段只定义了查询串,还没有得到结果文档集。我们不得不作一些简单的假设, 假定P(ki|R)对所有的索引术语来说是常数(一般等于0.5) 假定索引术语在非相关文档中的分布可以由索引术语在集合中所有文档中的分布来近似表示。 P(ki|R)=0.5 =ni/N ni表示出现索引术语ki的文档的数目,N是集合中总的文档的数目。 改进 V表示用概率模型初步检出的经过排序的子集,Vi为包含ki的V的一个子集。为了改善概率排序,需要对上述初始化公式改进: 通过迄今已检出的文献中标引词ki的分布来估计 通过假定所有未检出的文献都是不相关的来估计 这一过程可以递归重复 概率模型小结 优点 文档可以按照他们相关概率递减的顺序来排序。 缺点 开始时需要猜想把文档分为相关和不相关的两个集合,一般来说很难 实际上这种模型没有考虑索引术语在文档中的频率(因为所有的权重都是二值的) 假设标引词独立 概率模型是否要比向量模型好还存在着争论,但现在向量模型使用的比较广泛。 浏览模型 浏览模型 针对浏览(browsing)文献的用户 具体分为三种模型 扁平浏览(flat)模型 结构导向(structure guided)模型 超文本(hypertext)模型 扁平浏览模型 基本思想是假设用户浏览一个扁平组织结构的文献空间。 为何扁平组织结构?日常生活中有哪些? 文献集合被描述为二维平面上的点或一维链表中的元素。 优点 VS缺点 结构导向浏览模型 基本思想是把众多文档或信息资源组织到一个树状的类目等级体系中。 用户在该结构下,将由上到下,从宽泛到具体,逐步接近所需要的有用信息。 超文本浏览模型 基本思想是允许以非顺序的方式在计算机屏幕上浏览文本的高层交互式导航结构。 由结点和链组成,构成一个有向图。 网络空间的迷航与超文本地图。 扩展的布尔模型 布尔检索示例 “飞碟”AND “小说”:只能检索出D4,无法显现D1,D2,D3的差异 “飞碟”OR “小说”:可以检出D1,D2,D4,但无法显现它们的差异 扩展布尔模型 布尔模型和VSM各自有着自己的优点和不足,能 否将两者结合起来,克服自身的缺点,发挥相互的 长处?1983年G.Salton及其学生提出一种基于布尔 逻辑框架的混合布尔、向量特性的“扩展布尔模 型”。 布尔模型和向量空间模型相结合 布尔模型可以和向量空间模型相结合,先做布尔过滤,然后进行排序: 首先进行布尔查询 将全部满足布尔查询的文档汇集成一个文档 用向量空间法对布尔检索结果进行排序 布尔过滤 排序 文档 向量空间 表示的 查询式 结果 布尔 查询式 如果忽略布尔关系的话,向量空间查询式和布尔查询式是相同的 先“布尔”,后“排序”存在的问题 如果 “与” 应用于布尔查询式, 结果集可能太窄,因而影响了后面的排序过程 如果 “或” 应用于布尔查询式, 就和纯向量空间模型没有区别了 在第一步,如何最佳地应用布尔模型呢? 提出扩展布尔模型 扩展布尔模型中的“或”关系 给定一个或关系的查询式:x ? y 假设文档di中x和y的权重被归一化在(0,1)区间内: wx,j = (tfx,j / maxl tfl,j )? (idfx / maxi idfi) sim(qor, dj) = [ (x2 + y2)/2 ]0.5 where x = wx,j and y = wy,j (1,1) wx,j wy,j (1,0) (0,1) (0,0) 最不期望的点 d x ? y 一个文档在(1,1)处获得最高的权重,此时意味着文档包含了全部两个查询词,并且查询词在文档中的权重也是最高的 函数sim()度量了从原点出发的文档向量长度 扩展布尔模型中的“与”关系 给定一个联合的查询式 x ? y sim(qand, dj) = 1 ? { [ (1? x)2 + (1? y)2 ]/2 }0.5 函数sim() 表示从(1,1) 出发到d的向量长度 (1,1) wx,j wy,j (1,0) (0,1) (0,0) 最期望的点 d x ? y 扩展的布尔检索相似度计算示例 观察 如果权值是布尔型的,x出现在文档dj中,则x在文档dj中具有权重1,否则为0 当dj 包含x和y时 sim(qand, dj) = sim(qor, dj) =
文档评论(0)