信息检索模型 2.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索模型 2.ppt

信息检索模型 Wang Jimin Sept. 23, 2005 Outline ?信息检索 信息检索模型 IR模型的形式化表示 IR模型的分类 经典信息检索模型 布尔模型 向量空间模型 经典概率模型 信息检索 信息检索(information retrieval,IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。 发展的几个阶段 手工检索(早期,情报检索) 穿孔卡片检索(1950s) 计算机检索(面向主题,1960s) 联机检索(1970s,1980s) Web检索(1990s) 实例:有哪些信誉好的足球投注网站引擎 有哪些信誉好的足球投注网站引擎(search engine,SE),Web上的一种应用软件系统,它以一定的策略在Web上搜集和发现信息,对信息进行处理和组织后,为用户提供Web信息查询服务 有哪些信誉好的足球投注网站引擎三段式工作流程 实例:有哪些信誉好的足球投注网站引擎 检索过程 现代信息检索的主要内容 建模 文献分类 系统构建 用户界面 数据可视化 信息过滤 查询语言 …. 相关概念 停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。 索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组. 词干提取(英文中) countries = country,interesting = interest 组合词: 北京大学 中文切词(word segmentation),或称分词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。 信息检索模型 信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组 D, Q, F, R(qi,dj) 其中D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值 文档逻辑视图 D是一个文档集合,通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取,也可以是由人主观指定。 信息检索模型 Q是一个查询集合,用户任务的表达,由查询需求的逻辑视图来表示。 F是一个框架,用以构建文档,查询以及它们之间关系的模型 R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值 即: IR模型由上述四个要素组成 D, Q, F, R(qi,dj) 信息检索模型的分类 三类: 基于内容的信息检索模型,结构化模型,浏览型数学模型. 基于内容的信息检索模型有 集合论模型:布尔模型、模糊集合模型、扩展布尔模型 代数模型: 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型 概率模型: 经典概率论模型、推理网络模型、置信(信念)网络模型 信息检索模型 结构化模型:非重叠链表模型、临近节点模型 浏览型数学模型:平面(Flat)、结构导航(Structure Guided)、超文本(Hypertext) “共有词汇”假设(shared bag of words) 依据共有词汇假设的信息获取 存在共有:如果dj有q含有的某些ki , 则relevant(q, dj )=1 全部共有:如果dj有q含有的所有的ki , 则relevant(q, dj )=1 比例共有:如果q和dj 共有多于m%的ki , 则relevant(q, dj)=1 经典信息检索模型 布尔模型 向量空间模型 经典概率模型 布尔检索模型 一种简单的检索模型,它建立在经典的集合论和布尔代数的基础上。 遵循两条基本规则: 每个索引词在一篇文档中只有两种状态:出现或不出现,对应权值为 0或1。 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式。 布尔检索模型 首先,将查询转化为一个主析取范式DNF ?例如:查询为 进一步表达为 即:每一个分量都是三元组 的二值向量 布尔检索模型 定义:用qdnf表示查询q的析取范式,qcc表示qdnf的任意合取分量。文献dj 与查询q的相似度为 如果 ,则表示文献dj与q相关,否则为不相关。 sim(dj, q) 为该模型的匹配函数。 布尔检索模型 简单实例 q = 病毒 AND (计算机 OR 电脑)AND NOT医 ?d1: …据

文档评论(0)

heroliuguan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8073070133000003

1亿VIP精品文档

相关文档