第九章根据内容检索.pptVIP

下载本文档

0
0
约3.91千字
约 35页
2025-10-31 发布于广东
举报
版权申诉

第九章根据内容检索.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第1页，共35页，星期日，2025年，2月5日第9章根据内容检索本章目标讨论图像检索算法中表示和检索问题。介绍匹配时间序列和序列的基本概念。第2页，共35页，星期日，2025年，2月5日9.1简介传统的数据库查询定义为：查询是一种返回精确匹配指定要求的记录集合(或表项集合)的操作。例如，查询“[level=MANAGER]AND[age30]”，返回的结果是有具有重要职务的年轻雇员的列表。但在数据分析时，所感兴趣的是更一般的但不很精确的查询。例如，假设已知一个患者的人口统计学信息(比如年龄性别等等)、血液和其他常规检查的结果，以及生物医学方面的时间序列、X-光和图像。第3页，共35页，星期日，2025年，2月5日为了辅助对这个患者进行诊断，医生希望了解医院数据库中是否包含类似的患者，如果有类似的患者，那么他们的诊断、治疗方法和最终结果如何？这个问题的难点在于如何根据不同的数据类型(多元变量、时间序列和图像数据)来判断各个患者间的相似性。这类问题采用精确匹配是行不通的，因为数据库中不可能存在各项指标完全匹配的患者。第4页，共35页，星期日，2025年，2月5日因此，需要解决的是在数据库找出和指定查询或指定对象最相似的k个对象的各种技术问题。可以把这种形式的检索看是交互式的数据挖掘，因为用户直接参与了探索数据集的过程—指定查询并解决匹配过程得到的结果。如果数据集是根据内容批注的，那么检索问题就简化为标准的数据库索引问题，如果数据库没有被预先索引，我们仅有要寻找目标Q(查询模式)的一个实例，根据这个查询模式Q，我们要推论出数据集中哪些其他对象和它相近。第5页，共35页，星期日，2025年，2月5日这种检索方法被称为根据内容检索(retrievalbycontent)，它的最著名应用是在文本中检索。在文本检索中，查询模式Q通常是很短的(查询词汇列表)，然后在很大的文档集合匹配这个模式。这类问题由三个基本部分组成：1.如何定义对象间的相似尺度；2.如何实现高计算效率的有哪些信誉好的足球投注网站算法(对于给定的相似尺度)；3.如何在检索过程中融入用户的反馈并进行交互。第6页，共35页，星期日，2025年，2月5日本章主要讨论第一和第三个问题，第二个问题通常是一种索引问题(一个好的索引可以极大提高效率)。在下面的分析中，我们使用“相似”这个词，又使用“距离”这个词。对应的是相似尺度最大化和距离尺度最小化，其他章节的相似度和相异度。根据内容检索需要解决的几个问题：1.如何客观地评估特定检索算法的性能。2.如何决定用以计算相似尺度的表示。第7页，共35页，星期日，2025年，2月5日例如，通常用颜色、纹理和相似特征来地、表示图像；用单词的出现次数来表示文本。第8页，共35页，星期日，2025年，2月5日9.2检索系统的评价一、评价检索性能的困难之处在分类和回归中，总能以一种客观的方式来评判模型的性能。然而，对于根据内容检索来说，评价一个特定算法或技术的性能要复杂和棘手的多。主要的难点是检索系统的最终性能尺度是由检索出的信息对用户的实用性来决定的。检索是一种以人为中心的交互过程，这给评价检索性能带来了很大困难。第9页，共35页，星期日，2025年，2月5日首先我们假定相对一个特定的查询，可以把对象标记为相关或不相关。换句话来说，对于任一个查询Q，我们假定存在一个二值分类标签的集合，该集合对应数据中的所有对象，指出哪个对象是相关的，哪个是不相关的。最后我们假定已经以某种方式为每个对象附加标签(假定是以一种比较客观并与人类判相一致的方式)。基于这些假定，就可以把检索问题看作一种特殊形式的分类问题—类标签依赖于查询Q，第10页，共35页，星期日，2025年，2月5日也就是，“对于查询Q相关还是不相关”，然后相对Q来估计数据库中对象的类标签。检索分类的特点：1.分类变量的定义是由用户掌握的(用户定义查询Q)，因此每次运行系统时都可能变化。2.主要目标不是分类出数据库的所有对象，而是返回与用户查询最相关的对象。第11页，共35页，星期日，2025年，2月5日二、查准率对查全率假定我们在一个独立的检验数据集上评价一个指定检索系统相对特定查询Q的性能。检验数据中的对象已经被预先分类为相对于查询Q是相关还是不相关。假定这个检验数据集没有被这个检索算法使用过，我们可以把检索算法想象为就是要对这个数据集中的对象作出分类(按照相对于查询Q的相关性)。如果这个算法是使用距离尺度(数据集中的每个对象相对于Q的距离)来排列对象集合的，那么这个算法通常具有一个阈值参数T。第12页，共35页，星期日，2025年，2月5日算法将返回KT个对象—和查询对象Q的距离小于T的KT个对象的有序