信息检索模型 2.pptVIP

下载本文档

43
0
约6.49千字
约 48页
2018-03-16 发布于北京
举报
版权申诉

信息检索模型 2.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息检索模型 2.ppt

信息检索模型 Wang Jimin Sept. 23, 2005 Outline ?信息检索信息检索模型 IR模型的形式化表示 IR模型的分类经典信息检索模型布尔模型向量空间模型经典概率模型信息检索信息检索（information retrieval，IR），将信息按一定的方式组织和存储起来，并根据用户的需要找出有关信息的过程。发展的几个阶段手工检索(早期,情报检索) 穿孔卡片检索(1950s) 计算机检索(面向主题,1960s) 联机检索（1970s,1980s) Web检索(1990s) 实例：有哪些信誉好的足球投注网站引擎有哪些信誉好的足球投注网站引擎（search engine，SE），Web上的一种应用软件系统，它以一定的策略在Web上搜集和发现信息，对信息进行处理和组织后，为用户提供Web信息查询服务有哪些信誉好的足球投注网站引擎三段式工作流程实例：有哪些信誉好的足球投注网站引擎检索过程现代信息检索的主要内容建模文献分类系统构建用户界面数据可视化信息过滤查询语言 …. 相关概念停用词（stop word），指文档中出现的连词，介词，冠词等并无太大意义的词。例如在英文中常用的停用词有the，a, it等；在中文中常见的有“是”，“的”，“地”等。索引词（标引词，关键祠）:可以用于指代文档内容的预选词语,一般为名词或名词词组. 词干提取（英文中） countries = country，interesting = interest 组合词: 北京大学中文切词（word segmentation），或称分词，主要在中文信息处理中使用，即把一句话分成一个词的序列。如，“网络与分布式系统实验室”，分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。信息检索模型信息检索模型（IR model），依照用户查询，对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组 D, Q, F, R(qi,dj) 其中D是一个文档集合，Q是一个查询集合，F是一个对文档和查询建模的框架，R(qi,dj) 是一个排序函数，它给查询qi和文档 dj 之间的相关度赋予一个排序值文档逻辑视图 D是一个文档集合，通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取，也可以是由人主观指定。信息检索模型 Q是一个查询集合，用户任务的表达，由查询需求的逻辑视图来表示。 F是一个框架,用以构建文档,查询以及它们之间关系的模型 R(qi,dj) 是一个排序函数，它给查询qi和文档 dj 之间的相关度赋予一个排序值即: IR模型由上述四个要素组成 D, Q, F, R(qi,dj) 信息检索模型的分类三类: 基于内容的信息检索模型,结构化模型,浏览型数学模型. 基于内容的信息检索模型有集合论模型：布尔模型、模糊集合模型、扩展布尔模型代数模型：向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型概率模型：经典概率论模型、推理网络模型、置信（信念）网络模型信息检索模型结构化模型：非重叠链表模型、临近节点模型浏览型数学模型：平面(Flat)、结构导航(Structure Guided)、超文本(Hypertext) “共有词汇”假设（shared bag of words）依据共有词汇假设的信息获取存在共有：如果dj有q含有的某些ki , 则relevant(q, dj )=1 全部共有：如果dj有q含有的所有的ki , 则relevant(q, dj )=1 比例共有：如果q和dj 共有多于m%的ki , 则relevant(q, dj)=1 经典信息检索模型布尔模型向量空间模型经典概率模型布尔检索模型一种简单的检索模型，它建立在经典的集合论和布尔代数的基础上。遵循两条基本规则: 每个索引词在一篇文档中只有两种状态：出现或不出现，对应权值为 0或1。查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。布尔检索模型首先，将查询转化为一个主析取范式DNF ?例如：查询为进一步表达为即：每一个分量都是三元组的二值向量布尔检索模型定义：用qdnf表示查询q的析取范式，qcc表示qdnf的任意合取分量。文献dj 与查询q的相似度为如果，则表示文献dj与q相关，否则为不相关。 sim(dj, q) 为该模型的匹配函数。布尔检索模型简单实例 q = 病毒 AND （计算机 OR 电脑）AND NOT医 ?d1: …据