- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章--信息检索模型
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * 广义向量空间模型的定义 假定集合中的标引词的集合为{t1,t2,…tn},wi,j是标引词ti在文献Dj中的权值,如果所有的权值wi,j都是二值的,n个标引词生成2n个互不相同的最小项,每个最小项中只能出现一个标引词ti,则在文档内部同时出现的所有可能的模式可以用2n最小项的集合来表示。 广义向量空间模型的定义 最小项mi的集合定义为如下形式: m1 = (0,0,…,0) m2 = (1,0,…,0) . . . m2n = (1,1,…,1) 函数gi(mj)返回最小项mj中的标引词ti的权值{0,1}。 代数模型 ——潜语义标引模型(Latent Semantic Indexing Model) 潜语义标引模型的提出 自然语言文本中的词汇(术语)具有一词多义和一义多词的特点。 由于一词多义, 基于精确匹配的检索算法会报告许多用户不要的东西: 处理 什么地方处理旧家具? 你去把那个叛徒处理了 处理自然语言很难 由于一义多词, 基于精确匹配的检索算法又会遗漏许多用户想要的东西: “互联网”,“万维网”,“因特网”,“国际互联网”等 词汇-文档矩阵 将自然语言中的每个文档视为以词汇为维度的空间中的一个点,认为一个包含语义的文档出现在这种空间中,它的分布绝对不是随机的,而是服从某种语义结构。 同样地,也将每个词汇视为以文档为维度的空间中的一个点。文档是由词汇组成的,而词汇又要放到文档中去理解,体现了一种“词汇-文档”双重概率关系。 潜语义标引模型的构建 词-文档矩阵的构建 文档库是用词-文档矩阵Amn来表示的。m为文档库中不同词的个数,一个词对应矩阵A中的一行;n表示文档库中的文档数,每个文档对应矩阵A中的一列;aij表示第i个词在第j个文档中出现的频率TF。 第一个词在各个文档中出现的频率 第一个文档中各个词出现的频率 潜语义标引模型的构建 奇异值分解SVD(降维) A可以分解为三个矩阵T0, S0, D0T(D0的转置)的积. 这种分解叫做单值分解(singlar value decomposition),简称SVD A=T0*S0*D0T 降维 把S0的m个对角元素的前k个保留, 后m-k个置0, 我们可以得到一个新的近似的分解: Xhat=T*S*DT 代数模型 ——神经网络模型(Neural Networks Model) ta tb tc tn tc tb ta t1 dN dj+1 dl dj … … … … 查询词语 文档词语 文档 神经网络模型的构建 信息检索处理过程 1.由第一层的查询词语结点ta、tb和tc分别向对应的第二层文档词语结点发出信息; 2.文档词语结点ta、tb和tc又产生信息并向第三层的相关文档结点传送; 3.文档结点在收到文档词语结点发送的信号后产生新的信号并返回到文档词语结点; 4.过程3将会重复进行直到信号不断衰减而终止。 信号强度的确定 提问结点向文档词语结点发送信号,其作用强度分量由向量模型中提问词的权值派生出来: 文档词语结点向文档结点传递信号,其作用分量由向量模型中文档词语的权值派生出来: 信号强度的确定 信号传递第一阶段结束后,与文档dj相关联的文档结点的活跃值可以表示为: 概率模型 ——推理网络模型(Inference Networks Model) 贝叶斯(Bayesian)网络 贝叶斯网络可以看作是一个有向无环图(Directed Acyclic Graph,DAG)。图中的结点一般用来表示随机变量,有向边用于描述随机变量之间的因果关系,而因果关系影响力的大小(或权值)则用条件概率来表示。 贝叶斯(Bayesian)网络 贝叶斯网络可以用联合概率分布的方式表达结点之间的依赖关系: P(x1)称为网络的先验概率,它由具体应用系统的已有知识和语义来定义或决定;其余各项则称为条件概率。 推理网络模型 * 文献Dj t1 t2 ti tn Q Q2 Q1 用户查询I … and OR OR … 概率模型 ——信任度网络模型(Belief Networks Model) 信任度网络模型 文档D1 t1 t2 ti tn 查询Q … 文档Dj 文档Dn … 结构化文本模型(Structured Text Retrieval Model) ——基于非
您可能关注的文档
最近下载
- 海信日立空调工程安装操作标准.pdf VIP
- 2021-2027全球及中国红外探测器芯片行业研究及十四五规划分析报告.docx VIP
- 2025-2026学年小学美术二年级上册(2024)岭南版(2024)教学设计合集.docx
- 02s404防水套管图集.docx VIP
- NASA认知负荷评估量表(TLX).docx VIP
- 20以内加减法练习题(a4).pdf VIP
- 光纤通信考试题及答案.doc VIP
- 天津市南开区2024-2025学年九年级上学期期末语文试题(含答案).pdf VIP
- 2025年公路水运安全员证考试题库答案.docx
- (推荐!)《ISO 37001-2025反贿赂管理体系要求及使用指南》专业深度解读和应用培训指导材料之7:9绩效评价(2025A1).docx VIP
文档评论(0)