浅析Lucene查询技术.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析Lucene查询技术

浅析Lucene查询技术   摘要:Lucene是一个强大的全文索引引擎工具包,它的全文检索技术是信息检索领域广泛使用的基本技术,具有访问索引时间快、多用户访问、跨平台使用的特点。该文着重分析了Lucene的查询模型,研究了Lucene的查询方式,并提出了Lucene查询优化的方法。   关键词:查询模型;查询评分方式;查询过程;查询优化方式   中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)11-2524-02   Lucene的检索算法属于索引检索,即用空间来换取时间,主要适用于文档集的全文检索,以及海量数据库的模糊检索。有哪些信誉好的足球投注网站就是查找一条索引里的单词出现的文档的过程。一个有哪些信誉好的足球投注网站的质量是用精度和回调法来描述的。回调测量有哪些信誉好的足球投注网站系统查找相关的文档的质量,然而精度测量系统过滤出不相关文档的质量,但是在思考有哪些信誉好的足球投注网站的时候必须考虑许多其他因素。Lucene已经提及速度和快速有哪些信誉好的足球投注网站大量文本的能力。支持单个的和多个词汇的查询,短语查询,通配符,结果分级,以及排序功能。Lucene的强大的软件库提供许多查询特性。   1 Lucene查询模型(Lucene Querying Model)   查询模型是一个四元组[D,Q,F,R(qi,dj)],D为文档集的机内表示,Q为用户需求的机内表示,F为文档表示、查询表示和它们之间的关系的模型框架(Frame),R(qi,dj)给query qi和document dj评分   1.1向量模型   向量空间模型将文档映射为一个特征向量V(d)=(t1,w1(d);…; tn,wn(d)),其中ti(i=1,2,…n)为一列互不相同的词条项,wi(d)为ti在d中的权值,一般被定义为ti在d中出现频率tfi(d)的函数。向量模型的优点在于,术语权重的算法提高了检索的性能;部分匹配的策略使得检索的结果文档集更接近用户的检索需求;根据结果文档对于查询串的相关度并通过公式对结果文档进行排序[1-2]。   Lucene把索引中的每个词作为空间的一个维度;把每一篇文档作为空间中的一个向量;把每一个查询也作为空间中的一个向量;通过计算文档和查询的内积或余弦等来表示文档和查询的相关程度。   1.2布尔模型   BooleanQuery是一种复合式的Query支持多种不同Query的逻辑组合,可以对不同的query赋予不同的boost值表示该query在整个BooleanQuery中的重要程度。   qerynorm=boost/sqrt(∑i idfi*idfi*boosti*boosti)   计算每个查询的Term和匹配文档的分值:   Weight=queryWeight*fieldWeight;   queryWeight=boost*idf*querynorm;   fieldWeight=tf*idf*fieldnorm;   每篇匹配文档计算总得分:   score=coord*(∑iweighti);coord=匹配词项数/总词项数;   qerynorm为一个修正因子,用来使不同查询间的分数更可比较。   boost为该query被赋予的权值。   tf为该query中的term在某文档中出现的次数。   idf为lg(N/df),其中N为文档总数,df为含term的文档数量。   2 Lucene查询过程(Lucene Querying Process)   2.1查询过程概述   Lucene的有哪些信誉好的足球投注网站采用二元有哪些信誉好的足球投注网站算法快速定位关键词,这是由于Lucene倒排索引关键词是按字母字符顺序排列的。找到相应关键词后,通过指向频率文件的指针读出所有的文档号,然后对所得文档进行评分(Lucene的评分机制基于向量空间模型),最终把相关度高的前100个查询结果以文档引用的方式存储在Hits对象中,这些得分较高的文档基本可以满足用户对查询信息的要求[4]。   2.2项、域查询   一条有哪些信誉好的足球投注网站语句被拆分为一些项(term)和操作符(operator)。项有两种类型:单独项和短语。单独项就是一个单独的单词,例如test,hello。短语是一组被双引号包围的单词,例如hello world。多个项可以用布尔操作符连接起来形成复杂的查询语句。   Lucene支持域。指定在某一个域中有哪些信誉好的足球投注网站,或者就使用默认域。域名及默认域是由具体索引器来决定的。   以QueryParser为例,代码如下:   Hits hits = null;   try   {   //contents为检索字段,key为检索词   QueryParser queryparser = new QueryParser(contents,new StandardA

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档