- 1、本文档共82页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 信息检索模型;内容提要;什么是模型?;信息检索模型;信息检索模型;文档逻辑视图;匹配处理框架(F);匹配计算函数R;信息检索模型决定于:
从什么样的视角去看待查询式和文档?
基于什么样的理论去看待查询式和文档的关系?
如何计算查询式和文档之间的相似度?;模型的分类;1 布尔模型(Boolean Model);布尔模型描述;布尔模型的基本原理
布尔模型在解释信息检索处理过程时,主要遵守的两
条原则:
系统索引词集合中的每一个索引词在一篇文档中只有两种状态:出现或不出现。每个索引词的权值wij∈{0,1}
检索提问式q由三种布尔逻辑运算符“and”、“or”、“not”连接索引词来构成。
根据布尔逻辑的运算规定,提问式q可以被表示成由合取子项(conjunctive components)组成的析取范式(disjunctive normal form,简称dnf)形式。
; 如:提问式 q = k1 and (k2 or not k3)可写成等价的???取范式形式:
q dnf = (k1 and k2 and k3) or (k1 and k2 and not k3) or (k1 and not k2 and not k3 )
这里q dnf是提问式q的主析取范式。可进一步简化表示 为: q dnf =(1,1,1) or (1,1,0) or (1,0,0)
其中: (1,1,1) or (1,1,0) or (1,0,0)是q dnf的三个合取子项qcc,他们是一组向量,由对应的三元组(k1 , k2 , k3)的每一个分量取0或1得到。
基于以上规则和假定,布尔模型对于任一篇文献dj∈D,定义与用户提问q的匹配函数为:; 1 如果存在qcc|(qcc∈qdnf)且对于任意ki, 有
gi(dj) = gi(qcc)
Sim(dj,q)=
0 其他
例如: 文档集合D存在两篇文档d1和d2,其中,d1含有关键
词k1和k2,d2含有关键词k1和k3,则它们的文档向量分别为:
d1 =(1,1,0) , d2 =(1,0,1)
根据匹配函数的定义,显然,d1与提问式q = k1 and (k2
or not k3)的匹配函数值是1,即d1与提问q是相关的; d2与
提问式q的匹配函数值是0, 表明d2与提问q是不相关的。;;布尔模型的优点;布尔模型存在的问题;课堂练习题(1);参考答案;课堂习题(2);2 向量空间模型;向量空间模型的基本原理
;模型的描述;模型的特点;模型中的问题;索引项的选择;索引项的选择;文档向量的构造
对于任一文档dj∈D,都可将它表示为t维向量形式:
dj= (w1j, w2j, …,wij)
其中,向量分量wij代表第i个索引词ki在文档dj中所具有的权重,t为系统中索引词的个数。
在Boolean模型中, wij ={0,1}
在VSM中,wij =[0,1]
一篇文档有多个索引词,如何计算每个索引词的权值?
;索引词的权重;例如:文档总数为1000,出现关键词k1文档为100篇,出现关键词k2文档为500篇,出现关键词k3文档为800篇
N=1000, n1=100, n2=500, n3=800
根据公式: idfi = log(N/ni) ,可计算出
idf1= 3 - 2 = 1
idf2= 3 – 2.7 = 0.3
idf3 = 3 – 2.9 = 0.1
Idf越大,表明区别(分)文档的能力越强。
;文档的词项权重(TFIDF举例);Idf 计算示例;查询式的词项权重;由索引项构成向量空间;文档集 – 一般表示;图示;相似度计算;通过计算查询式和文档之间的相似度;相似度度量 – 内积(Inner Product);内积 – 举例;内积的特点;余弦(Cosine)相似度度量;其它相似度度量方法;示例;向量空间模型优点;向量空间模型的不足;课堂练习(3);docid;概率模型;;3 概率模型;经典概率模型最早在1976年由英国城市大学Robertson和Sparck-Jones提出。
基本思想:给定一个用户提问,则检索系统中存在一个与该提问相关的理论命中结果集R。如果能已知R的主要特征及其描述,则用户的检索要求便不难实现。事实上,用户提出检索请求时,并不知道R的特征,为此,需要在检索开始时就对R的特征进行某种猜测。根
您可能关注的文档
- 第22课《美国南北战争》上课课件.ppt
- 世纪金榜语文初二答案6.ppt
- 第22课唐雎不辱使命.ppt
- 东南亚、中亚、西亚.ppt
- 第22课特殊三角形.ppt
- 第2346章习题答案.ppt
- 两阶段提交协议.ppt
- 个人主义与集体主义.ppt
- 第23课共和国的风雨历程.ppt
- 第23讲相似三角形及其应用.pptx
- 2025届湖北省武汉市新洲区中考历史最后一模试卷含解析.doc
- 辽宁省丹东市第十四中学2025届中考冲刺卷生物试题含解析.doc
- 方兴大道承台砼施工技术交底.docx
- 江苏省扬州市田家炳实验中学2025届中考历史全真模拟试卷含解析.doc
- 2025届黑龙江省杜尔伯特县中考二模化学试题含解析.doc
- 海南省海口九中学海甸分校2025届中考生物模拟试卷含解析.doc
- 江苏省春城中学2025届中考生物全真模拟试卷含解析.doc
- 广东省广州市番禺区广博校2025届中考猜题历史试卷含解析.doc
- 安徽省合肥市重点中学2025届中考四模历史试题含解析.doc
- 河北省衡水市故城县2025届中考生物押题试卷含解析.doc
最近下载
- 小水滴的诉说公开课.pptx VIP
- 2025 届新高考高三第一次联考物理试卷(真题含答案解析).docx
- 《大数据金融》考试复习题库(含答案).docx
- 【GB_T51450-2022 】金属非金属矿山充填工程技术标准.docx
- 2024年贵州省高考地理真题试卷(含答案).docx VIP
- 小升初语文(部编版)真题汇编专题11划分节奏与句子分析.docx VIP
- 泵体的铸造工艺设计及模拟.doc
- 网课智慧树知道《温病学(浙江中医药大学)》章节测试答案.docx
- 合理饮食与规范作息.pptx VIP
- 第12课《终身学习持续发展》第2框《信息素养助力发展》-【中职专用】《心理健康与职业生涯》同步课堂课件.pptx
文档评论(0)