信息检索2-词典.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息检索2-词典

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * Nontrivial issues. Requires some design decisions. * * * * * * * * * * 并非精度高的分词系统检索效果也好 * * * * * * * * Nevertheless: “Google ignores common words and characters such as where, the, how, and other digits and letters which slow down your search without improving the results.” (Though you can explicitly ask for them to remain.) * * * * * * * Why not the reverse? * * * * * 跳表指针的位置 指针数目过多过少都不合适,要有一个均衡性: 指针越多 跳步越短 更容易跳转,但是需要更多的与跳表指针指向记录的比较 指针越少 比较次数越少,但是跳步越长 成功跳转的次数少 跳表指针的位置 简单的启发式策略:对于长度为L的倒排记录表,每 √L 处放一个跳表指针,即均匀放置。均匀放置方法忽略了查询词项的分布情况 如果索引相对静态,均匀方式方法是一种很简便的方法,但是如果索引经常更新造成L经常变化,均匀方式方式就很不方便 跳表方式在过去肯定是有用的,但是对于现代的硬件设备而言,如果合并的倒排记录表不能全部放入内存的话,上述方式不一定有用 (Bahle et al. 2002) 更大的倒排记录表(含跳表)的 I/O开销可能远远超过内存中合并带来的好处 提纲 * 上一讲回顾 文档 词项 通常做法+非英语处理 英语 跳表指针 短语查询 PHRASE QUERIES AND POSITIONAL INDEXES 短语查询及位置索引 短语查询 输入查询作为一个短语整体,比如 “stanford university” “中国科学院” 因此,句子 “I went to university at Stanford” 就不应该是答案 (“我去了中国 农业 科学院”) 有证据表明,用户很容易理解短语查询的概念,这也是很多有哪些信誉好的足球投注网站引擎”高级有哪些信誉好的足球投注网站”中比较成功的一个功能。 但是很多查询是隐式短语查询, information retrieval textbook ? [information retrieval] textbook 这种情况下,倒排索引仅仅采用如下方式是不够的 term + docIDs 第一种做法: 双词(Biword)索引 每两个连续的词组成词对(作为短语)来索引 比如文本片段 “Friends, Romans, Countrymen” 会产生两个词对 friends romans romans countrymen 索引构建时,将每个词对看成一个词项放到词典中 这样的话,两个词组成的短语查询就能直接处理 更长的短语查询处理 例子: stanford university palo alto, 处理方法: 将其拆分成基于双词的布尔查询式: stanford university AND university palo AND palo alto 如果不检查文档,无法确认满足上述表达式的文档是否真正满足上述短语查询。也就是说满足上述布尔表达式只是满足短语查询的必要条件。 很难避免伪正例的出现! 扩展的双词(Extended Biword) 对待索引文档进行词性标注 将词项进行组块,每个组块包含名词 (N) 和冠词/介词 (X) 称具有NX*N形式的词项序列为扩展双词(extended biword) 将这样扩展词对作为词项放入词典中 例子: catcher in the rye (书名: 麦田守望者) N X X N 查询处理:将查询也分析成 N和X序列 将查询切分成扩展双词 在索引中查找: catcher rye 关于双词索引 会出现伪正例 由于词典中词项数目剧增,导致索引空间也激增 如果3词索引,那么更是空间巨大,无法忍受 双词索引方法并不是一个标准的做法 (即倒排索引中一般不会全部采用双词索引方法),但是可以和其他方法混合使用 第二种解决方法: 带位置信息的索引(Positional indexes) 在倒排记录表中,对每个词项在每篇文档中的每个位置(偏移或者单词序号)进行存储: 词项, 出现词项的文档篇数;

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档