- 1、本文档共112页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 信息检索模型;第七章 信息检索模型;7.1 信息检索模型概述;7.1.2 信息检索模型;2、信息检索模型的组成
(1)用户的需求表示:包括用户查询信息的获取与表示。
(2)文档的表示:文档内容的识别与表示。
(3)匹配机制:用户需求表示与文档表示之间的查询机制,以及它们之间相关性排序的准则和函数表示。
(4)反馈修正:对检索结果进行优化。;结构化文本模型;7.2 经典的信息检索模型;7.2.1 定义及假设;7.2 经典的信息检索模型;7.2.2 布尔检索模型;布尔检索模型;布尔检索模型;;布尔检索模型;7.2 经典的信息检索模型;7.2.3 向量空间模型;7.2.3 向量空间模型; 文档和文档之间的相似度Sim可以表示如下:;例子;标引词的权重计算(TF-IDF)
N为文档集合,ni为包含标引词Ki的文档篇数,TFij表示标引词Ki在文档Dj中出现的频数,则文档Dj中标引词Ki的标准化频率Fij为
Fij= TFij / maxj TFij
最大值是通过计算文档Dj中出现的所有标引词来获得的。如果标引词Ki没有出现在文档Dj中,则Fij= 0。
标引词Ki的IDF为IDFi=log(N/ni)
标引词Ki在文档Dj中的权重Wij=Fij*IDFi;TF-IDF举例说明;7.2.3 向量空间模型;向量空间模型的主要缺点:
(1)标引词仍然被认为是相互独立,会丢掉大量的文本结构信息,降低语义准确性。
(2)相似度的计算量大,当有新文档加入时,必须重新计算词的权值。;7.2 经典的信息检索模型;7.2.4 概率模型;7.2.4 概率模型;7.2.4 概率模型;7.2.4 概率模型;7.2.4 概率模型;7.2.4 概率模型;对较小的V和Vi,如V=1,Vi=0,上述计算会出现问题,所以做以下改进:
也可以为:;7.3 集合论检索模型;7.3 集合论检索模型; 假设U ={0,1,2,...,9} 为代表一个家庭中,所可能拥有子女个数的集合,令三个模糊集合定义为A:子女数众多,B:子女数适中,C:子女数很少,其归属函数的定义如表所示。 ;模糊集合理论对于表示和解决现实社会中存在的许多模糊和不精确问题非常有效,并已在许多领域取得广泛应用,其中就包括在信息检索领域中的成功应用。以下选择奥加娃(Y.Ogawa)等人提出的模糊检索模型,对其基本原理进行介绍。
(1)标引词关联矩阵
(2)文档的隶属度
(3)用户提问及表示
;(1)标引词关联矩阵
所谓标引词关联矩阵,是指以标引词集合K中的元素作为行、列,标引词之间语义关系作为元素值的一个词-词矩阵。假设关联矩阵用Ct*t表示,矩阵元素cil表示标引词ki、kl之间的关联因子,其值用如下公式计算:
Cil = nil/ (ni + nl – nil)
式中,ni、nl分别表示文档集合D中含有索引词ki和kl的文档数,而nil表示D中同时含有索引词ki、kl的文档数。;7.3.1 模糊集合检索模型;;集合论检索模型;;7.3 集合论检索模型;扩展布尔模型;扩展布尔模型中的“或”关系;扩展布尔模型中“与”关系;观 察;7.4 代数检索模型;7.4.1 广义向量空间模型;广义向量空间模型;广义向量空间模型;7.4.2 潜语义标引模型;设Doc1, Doc2, Doc3是三个文件,一些标引词在这三个文件中的出现情况如下表:
Doc1 Doc2 Doc3
Access X
document X
retrieval X X
information X* X*
theory X
database X
Indexing X
computer X* X*
;LSA的提出;词汇—文档;潜在语义标引模型;(1)词-文档矩阵的构建;(2)奇异值分解SVD-降维;(2)奇异值分解SVD-降维;例 子;(3)基于潜在语义空间模型的查询;小结;7.4.3 神经网络模型;2、信息检索处理过程;神经网络模型;7.5 概率检索模型;贝叶斯网络;贝叶斯网络;推理网络模型;;7.5、概率检索模型;信任度网络模型;7.6 结构化文本检索模型;7.6.1 标记语言结构化文本方法;HTML句法结构;HTML句法结构;;XML示例;标记语言结构化文本方法;
文档评论(0)