- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
全文检索引擎Lucene系统模型和应用探究
全文检索引擎Lucene系统模型和应用探究
引言
大数据时代,可利用的数据和信息量呈爆炸式增长,人们在获取更多信息的同时,也不可避免地增加了筛选信息的难度。面对海量数据,如何使用户更好、更准确地抓取所需信息,已成为信息化技术中一个非常重要的课题。全文检索技术是为用户提供快速、准确获取有效信息的重要方法。
1全文检索技术全文检索是以各种计算机数据,诸如文字、声音、图像等为处理对象,提供按照数据资料的内容,而不是外在特征来实现的信息检索手段。相对于一般的 DBMS,可以将 Word文档、邮件、网页等非结构化、半结构化数据作为检索对象。全文检索最初是以字符串匹配程序实现的,即在待查找的文件中,打开每个文件后,对文件内容从头到尾检索,如果其中包含需要查询的字符串,则将它作为结果文件。这种顺序检索效率较低,因此,全文检索都是通过“索引”技术实现的。其过程是由计算机索引程序扫描文件中的每一个词,然后对每个词建立一个索引,并指明该词在文章中出现的次数和位置。当用户查询时,由检索程序对已建立的索引进行查找,得到所需要的文件。
2全文有哪些信誉好的足球投注网站引擎LuceneLucene是一个非常优秀、成熟、开源、免费、采用Java语言编写的全文检索引擎工具。它提供了丰富的 API,可以与存储在索引中的信息方便地交互,并能方便地嵌入到各种应用系统中,实现针对应用的全文索引/检索功能。Lucene运用了大量的面向对象设计思想。首先定义了一个与平台无关的索引文件格式,其次通过抽象系统的核心组成部分设计为抽象类,具体的平台实现部分设计为抽象类的实现,此外与具体平台相关的部分比如文件存储也封装为类,经过层层的面向对象式处理,最终达成一个低耦合、高效率、容易二次开发的检索引擎系统。目前,Lucene得到了广泛应用,许多Java项目都使用了Lucene作为其后台的全文有哪些信誉好的足球投注网站引擎,比较著名的有:Jive(Web论坛系统)、Eyebrows(邮件列表 HTML归档/浏览/查询系统)、Cocoon(基于XML的 Web发布框架)等。
3Lucene系统模型
3.1Lucene系统结构Lucene有哪些信誉好的足球投注网站引擎由基础结构封装、索引核心、对外接口、查询分析器4大部分组成,如图1所示。图1Lucene系统结构索引核心是Lucene的重点,主要包括索引管理和数据存储管理。其中org.apache.lucene.index包实现对索引的建立、删除等操作,通过为每个分出的词建立索引,查询时只需遍历索引,从而极大地提高检索效率;org.a-pache.lucene.store包实现对索引文件的存储管理。基础结构封装是Lucene的基础,包括文档管理和公用类。其中org.apache.lucene.document实现对文档信息和域信息的管理;org.apache.lucene.util作为公共类,实现一些优化的数据结构和算法。对外接口包括检索和语言分析器,org.apache.lucene.analysis是语言分析器,主要用于切分词,把输入的文本分成一个个可供索引模块处理的“词语”。org.apache.lucene.search是检索管理器,提供用户检索接口,可以实现根据用户输入的查询条件进行查询。org.apache.lucene.QueryParser是查询分析器,其作用是解析用户输入的查询语句,对查询语句进行分析,然后返回一个查询对象(query),它还可以自定义查询规则,以实现像Google一样能支持查询条件的与、或、非等复合查询方式。
3.2Lucene检索流程基于Lucene的全文有哪些信誉好的足球投注网站,包含索引管理和有哪些信誉好的足球投注网站索引两个基本过程,其数据处理流程如图2所示。图2Lucene数据处理流程3.2.1索引管理在创建索引时,先将被索引(待有哪些信誉好的足球投注网站的数据)的内容,作为文档(Document)信息,传给IndexWriter对象,在In-dexWriter对象中,指定语言分析器 Analyzer。语言分析器自动对文档进行分词处理,将文档分成一个个单独的单词,其中还要进行去除标点符号和停用词(像英语中的a、the、or等使用频率很多的冠词、介词、副词或连词)等处理,形成“词元(Token)”。词元传递给语言处理器进行相关处理,形成“词(Term)”,对于英语形式的词元进行语言处理时,一般做以下工作:将词元变为小写、将词元缩减为词根形式(例如“cars”转换成“car”)、将词元转变为词根形式(例如“drove”转换“drive”)等。最后索引组件依据语言处理产生的词形成词典,采用倒排索引法,形成一定数据结构的索引文件。3.2.2有哪些信誉好的足球投注网站索引Lucene是针对索引进行查询的。先将用户输入的查询信息传递给 QueryParser对象,该对象采
- 软件下载与安装、电脑疑难问题解决、office软件处理 + 关注
-
实名认证服务提供商
专注于电脑软件的下载与安装,各种疑难问题的解决,office办公软件的咨询,文档格式转换,音视频下载等等,欢迎各位咨询!
文档评论(0)