- 1、本文档共23页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索模型 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 信息检索模型 信息检索模型(Information Retrieval Model)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。 信息检索模型是IR中的核心内容之一。 原始文档 相关度计算 文档表示 原始查询 查询表示 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 信息检索模型 用形式特征可以将信息检索模型表示为一个四元组的模型框架: IR = D, Q, R(q,d)。 D是文档表示 Q是查询表示 R(q ,d )是一个排序函数 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 相关概念 标引词(Index Term) 标引词是能代表文档内容的特征,可以是字、词、 短语或者某种语义单元,关键词(key words) 可以看成标引词的一种。 文档表示成多个标引词的集合 标引词的权重(Weight) ??不同标引词作用是不同的 通过权重加以区分 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 信息检索模型的分类 从所使用的数学方法上分: 基于集合论的IR模型(Set Theoretic models) ?? 布尔模型 ?? 基于模糊集的模型 扩展布尔模型 基于代数论的IR模型(Algebraic models) 向量空间模型 潜性语义索引模型 神经网络模型 基于概率统计的IR模型(Probabilistic models) 回归模型 概率模型 语言模型建模IR模型 推理网络模型 信任度网络模型 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 布尔模型(Boolean Model) 布尔模型:查询和文档均表示为标引词(“是否存在”) 的布尔表达式,通常表示成D(t 1,t 2,? ,t i)的形式。 布尔操作(关系) :与(AND) 或(OR) 非(NOT) 相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。 类似于传统数据库检索,是精确匹配 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 布尔模型的优点 简单、易理解、易实现 现代很多有哪些信誉好的足球投注网站引擎中仍然包含布尔模型的思想,如Google的高级检索 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyright 2004-2011 Aspose Pty Ltd. 布尔模型的局限性 只能严格匹配,文献要么相关、要么不相关,并没有一个相关级别的概念,因此很难有好的检索效果 构造布尔逻辑式不容易,对于一般用户而言,很难用AND、OR、NOT运算符的结合来准确地表达一个检索语句,标引词的简单组配不能完全反映用户的实际需要; 检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小 结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要 Evaluation only. Created with Aspose.Slides for .NET 3.5 Client Profile 5.2.0.0. Copyrigh
文档评论(0)