词法分析停用词消除词干还原term选择索引构建.ppt

下载文档 降价啦

23
0
约2.2万字
约 99页
2017-09-06 发布于天津
举报
版权申诉
保障服务

词法分析停用词消除词干还原term选择索引构建.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

词法分析停用词消除词干还原term选择索引构建

查询处理也可根据一定策略在索引时就进行裁剪（静态索引裁剪）基于词项的裁剪一个词项对应的位置（文档）列表中，只保留得分较高的文档 TREC　TB　2006数据上实验显示，裁剪率50%时，检索结果质量没有显著下降（P＠10由0.503降为0.500，MAP由0.260降为0.238），查询的平均时间下降了37% 基于文档的裁剪计算t在文档d中的分布与在文档集C中的分布之间的KL距离，将文档d中该距离较小的t删除掉 TREC　TB　2006数据上实验显示，裁剪率70%时，检索结果质量没有显著下降（P＠10由0.508降为0.503，MAP由0.260降为0.238），查询的平均时间下降了37% 裁剪后得到的结果与不裁剪时可能不一致，如何保证正确性？对基于词项的裁剪，是将文档得分小于某阈值的文档裁剪了，利用该阈值可算出文档对某查询得分的“上限”，对文档排序时利用该上限，如果排序结果不正确，可再用一个未裁剪的索引。查询处理预计算得分在BM25等模型中，可将t在文档中的分值（而不是出现的次数，TF值较小，通常用2－3位二进制即可）直接存储在索引中，加快查询处理过程（主要是从磁盘中读索引的过程）。但分值的保存用浮点数需要24－32位。可对评分进行离散化，然后再存储查询处理前面提到的通常是按文档及位置的编号对位置列表进行排序的也可基于影响力对位置列表进行排序，但对前面的算法及复杂度影响很大。小结文档预处理词法分析停用词消除 (stop list) 词干还原(morphological stemming) Term选择 statistics (counting words) part-of-speech tagging compound splitting partial parsing: noun phrase extraction other: use of thesaurus, named entity recognition, ... 索引构建 Motivation Inverted index Steps 作业练习使用分词系统练习使用英语词干化工具设计一个简单的索引系统和查询处理系统(每个词在文档中的分值用其词频表示) * incidence matrix 关联矩阵 * is AND and /s, /p, and /k ask for matches in the same sentence, same paragraph or within k words respectively. Double quotes give a phrase search (consecutive words); * How to build inverted index, 1M*1K terms document collection, There are 1G postings, can’t do it in memory. 讨论? * 刘奕群等《有哪些信誉好的足球投注网站引擎技术基础》 * 《信息检索-实现和评价有哪些信誉好的足球投注网站引擎》 * Multiple term entries in a single document are merged. Frequency information is added. The result is split into a Dictionary file and a Postings file. Why split? 基于排序的索引构建 Step1:从文件读入词条后，以（termID,position)对其记录，排序并写入磁盘（指定内存用完后）。 Step2: 将多个有序记录块通过多路合并操作进行合并该方法每个位置都需要（termID,position)，其中各词项对应的词项编号需要一个词典，每个位置中包含词项编号也浪费了空间。基于合并的索引一开始建立一个常驻内在索引，一旦内存不足，就将常驻内存索引数据传输到磁盘，建立一个磁盘的倒排文档，并删除内存中的索引。重复执行起到索引构建完毕对上面得到的倒排文档集进行合并成为最终索引。索引的内容模式依赖索引：支持面向文档检索的结构优化后的索引文档编号索引词频索引位置索引模式独立索引：没有优化的索引。允许在查询阶段才指定文档的定义(但需要额外的时间) Index size Stemming/case folding cut number of terms by ~40% number of pointers by 10-20% total space by ~30% Stop words Rule of 30: ~30 words account for ~30% of all term occurren