- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
广域P2P知识共享和检索系统研究 肖明忠 北京大学计算机科学技术系 网络与分布式系统实验室 2002-11-29 10:00-11:00 Outlines Text retrieval technology P2P technology Motivation Next work (omited) References (omited) Text retrieval technology Task of text retrieval system 从大量文本型内容的文档中(信息库)检索某主题信息。例如:有哪些信誉好的足球投注网站引擎 Process of IR 表达需要的信息; 在信息库中检索; 返回相关性大的文档集给检索者。 Text retrieval technology(续) Details of need to consider 如何表达需要的信息? 自然语言?词,如SE。 文档如何表达成可计算的实体? 用不着?量大。用词为之建索引。IF。 相关性如何计算? 以上三个问题的不同解决对应不同的检索模型 Text retrieval technology(续) 在文档的用词能反映文档的语义前提下(忽略语法,语义等),讨论如下几个检索模型。 布尔检索模型 向量空间模型 潜伏语义索引 Text retrieval technology(续) 在讨论检索模型之前: 所有索引词集合Terms={Ki ,i=1..N} maybe from in all,part or single document 文档向量表示: dj=(w1j,w2j,…,wNj); //N个词,每个词在文档中的权重 wij=Weight(Ki), i=1..N //第i个词的权重由Weight函数给定 Text retrieval technology(续) 布尔检索模型 Weight函数为布尔函数。 1 if dj in q Sim(dj,q)= 0 else Text retrieval (续布尔) Text retrieval (续布尔) 布尔模型存在问题 1、wij没有反映词频 freq(i,j)=索引词汇Ki在dj中出现次数 2、相关性计算结果二值性,决定了不支持部分匹配(有疑义) Text retrieval Technology(续) 向量空间模型 1、用于Web文本检索的标准方法 2、简单,快捷,好方法之一。 3、关键思想: 针对布尔模型的缺陷。 Text retrieval (续向量) Weight函数(有其他定义) Wij`= freq(i,j) max k in terms freq(k,j) wij`没有考虑频繁出现在众多文档中的词汇缺乏区分文档的能力!! wij=wij`log(M/ni) M:文档总数,ni是ki出现在多少个文档中 Text retrieval (续向量) 相关性计算(点积法) dj=(w1j,w2j,…,wNj) q=(w1q,w2q,…,wNq) sim(q,dj)=(dj.qT)/(|dj|.|q|) For example: Text retrieval (续向量) Text retrieval (续向量) Text retrieval (续向量) Text retrieval (续向量) 向量空间模型存在问题 1、一词多义 不相关的文档可能被检索到 2、一义多词 相关的,却因为没有含某词而不被检索 问题根源:假定索引词汇的独立性。 Text retrieval technology(续) 潜伏语义索引(Latent Semantic Indexing) 1、Term-Document矩阵(A)的SVD分解 ANxM=UNxrSrxrVTrxM U,VT相互正交;S对角阵,主对角线上元素(称为single value)从上至下依次递减。 U.UT=1; V.VT=1; U称为关键词向量阵,是AAT的特征向量矩阵 VT称为文档向量阵,是ATA的特征向量矩阵 Text retrieval(续LSI) (续) 矩阵的SVD分
文档评论(0)