Lucne技术总结.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Lucne技术总结

山东数网信息科技有限公司 Lucene技术总结 知识库项目组技术亮点总结——1 康康 2012/2/26 此文档讲述了lucent技术的基本用法,包括分词、索引、排重等技术。 一、 摘要 本文档是在完成山东农信知识库项目的基础上编写的,简要介绍了lucene技术的原理、分词技术、索引技术、文档权重、文档排重技术等,本文档的定位是lucene初级开发人员,如果您已经是lucene专家或者是有哪些信誉好的足球投注网站引擎的大牛,就没必要来看本文档了。本文档的所有编码是基于lucene 3.0.4完成的,使用的是标准分析器,对于不同的lucene版本或者不同的分析器,代码会有一定的差异。 二、 Lucene全文检索的实现 Lucene是一个高效的全文检索库。 相信各位同事在项目中通过数据库检索的案例很多,数据库检索大家一定非常熟悉了,我们知道在正常情况下数据库查询有哪些信誉好的足球投注网站能够满足我们的需求,那为什么还要用到lucene全文检索呢?在学习lucene之前,我们先了解一下全文检索吧。 数据分为两种:结构化数据和全文数据(又叫做非结构化数据)。 • 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 • 全文数据:指不定长或无固定格式的数据,如邮件,word文档等。 对结构化数据的有哪些信誉好的足球投注网站,我们一般用到数据库比较多。那对于全文数据的有哪些信誉好的足球投注网站呢?我们需要针对全文数据制定全文有哪些信誉好的足球投注网站的方式,其中像lucene这样,先建立索引,再对索引进行有哪些信誉好的足球投注网站就是其中的一种。 Lucene是一个基于java的全文索引引擎工具包,它提供了各种借口,可以方便的嵌入到各种应用中,通过对接口的实现满足我们全文索引或者检索功能。 在对非结构化数据索引之前,我们需要先将数据进行分词处理,对于英文分词比较简单,一个空格间隔就是一个单词,而对于中文,我们如何将中文的词提取出来再进行索引难度就比较大了。Lucene提供了多种语言分析器,在本文档的第四节中,我们将会对lucene分词技术做详细的讲解。 在对文字进行关键字提取之后,下一步就需要对内容进行索引了。索引是通过document存储的,document可以设定多个field字段,根据需要按照规则索引或者存储字段。索引同数据库的索引一样是有序的,因此lucene可以很高效的有哪些信誉好的足球投注网站信息。索引文件记录了词和词在文件中的偏移量。 有哪些信誉好的足球投注网站的时候,语言分析器,查询分析器,甚至有哪些信誉好的足球投注网站器(Searcher)都是提供了抽象的接口,可以根据需要进行定制。有哪些信誉好的足球投注网站结果返回的是Hits对象,可以通过它提取到查询返回的索引(也是通过document对象返回的),我们可以根据需要通过java代码将它转换为所需的对象。 三、 简单的案例 这一章节给出一个简单的案例,希望大家通过这个案例对lucene有个初步的认识。案例的源代码并不是知识库的有哪些信誉好的足球投注网站源代码,而是我从网上找的部分代码。 1. 如下是创建索引的实现: public static void createTxtFileIndex(){ //设置索引地址 File indexDir = new File(D:\\luceneIndex); //设置数据地址 File dataDir = new File(D:\\luceneData); //建立分词 Analyzer luceneAnalyzer = new StandardAnalyzer(); //取得目录下所有Files File[] dataFiles = dataDir.listFiles(); //建立indexWrite indexWrite主要作用是添加索引 IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true); //循环文件 for(int i = 0; i dataFiles.length; i++){ //取出txt后缀的文档 if(dataFiles[i].isFile() dataFiles[i].getName().endsWith(.txt)){ System.out.println(Indexing file + dataFiles[i].getCanonicalPath());

文档评论(0)

ipad0d + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档