- 1、本文档共19页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Lucene2.4_正在整理中
作用(目标):学完后能做什么
把最想要的资源快速的检索出来。
全文检索不同于数据库有哪些信誉好的足球投注网站:1,匹配效果:如有哪些信誉好的足球投注网站ant会有哪些信誉好的足球投注网站出planting。2,查出的结果没有相关度排序,不知道有用的结果在哪一页。3,有哪些信誉好的足球投注网站速度达不到毫秒级的要求。
相关度排序说明:有哪些信誉好的足球投注网站结果列表中越靠前的,一般就是最符合我们所预期的结果。回想使用baidu的时候,一般在第1页中就可以找到想要的文章,越往后翻就越离题。这是因为结果列表是按照相关度排过序的。
全文检索的实例有常见的有哪些信誉好的足球投注网站引擎baidu与google等。如下图就是使用baidu有哪些信誉好的足球投注网站的效果:
我们主要是做系统内有哪些信誉好的足球投注网站(或叫做站内有哪些信誉好的足球投注网站),即对一个系统内的资源进行有哪些信誉好的足球投注网站。如BBS、Blog中的文章有哪些信誉好的足球投注网站,网上商店中的商品有哪些信誉好的足球投注网站等。实例有ItcastBBS、Eclipse等。一般不做互联网中资源的有哪些信誉好的足球投注网站,因为不易获取与管理海量资源。(专业有哪些信誉好的足球投注网站方向的公司除外)。
学完后,可以为自已的系统增加全文检索的能力。
练习:1,看明白ItcastTieba的实现。2,为他增加文章全文检索的功能。
基础概念说明
全文检索 –– ORM
Lucene –– Hibernate
要选明白概念,再学习相应实现(框架)。
全文检索的定义
信息检索:从信息集合中找出与用户需求相关的信息。信息类型有:1,文本(或可以转为文本),如txt, html, pdf, word等。2,多媒体,如音频、视频、图片等。
全文检索:是指把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文本语义上的匹配。全文检索特点:1,只关注文本。2,不考虑语义。(如有哪些信誉好的足球投注网站“中国的首都是哪里”,如下图所示)
在信息检索工具中,全文检索是最具通用性和实用性的
说明:
在Internet上采集信息的软件被称为爬虫或蜘蛛,或称做网络机器人。爬虫在Internet上访问每一个网页,每访问一个网页就把其中的内容传回本地服务器。
信息加工最主要的任务就是为采集到本地的信息编排索引,为查询做好准备。就好比在传统的图书编目工作中,图书管理员需要对书籍进行分类、标引、并撰写摘要。信息加工的过程的过程和图书编目过程类似,但全部由计算机自动完成。
实现快速检索的原理(索引库结构)
索引文件结构
是倒排索引,索引对象是文档中的单词等,用来存储这些单词在一个文档中的位置。例如,有些书在最后提供的索引(单词——页码 的对应列表),就可以看成是一种倒排序索引。可以通过一些关键字,在全书中检索出与之相关的部分。
文档集合 文档1 文档2 文档3 文档4 文档5 …… 词汇表
关键词 所在的文档编号 采集 1,3 信息 1,5 软件 1,2,5 …… ……
以上只是用于说明倒排序索引的结构,最终的索引结构要复杂的多,还要存储关键词在文本中的编号位置(或是首字母的字符位置)等信息。
索引文件的检索与维护
词汇表规模相对较小,文档集合规模较大。进行检索时,先从检索词汇表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,则在词汇表中找到该单词,并取出他对应的文档就可以了。如果查询中包含多个关键词,则需要将各个单词检索出的记录进行合并。
维护倒排索引有三个操作:插入、删除和更新文档。但是更新操作需要较高的代价。因为文档修改后(即使是很小的修改),就可能会造成文档中的很多的关键词的位置都发生了变化,这就需要频繁的读取和修改记录,这种代价是相当高的。因此,一般不进行(真正的)更新操作,而是使用“先删除,后创建”的方式代替更新操作。
HelloWorld
发Lucene的资料,jar包等。
Lucene介绍
Lucene的主页为:/。有很多应用程序使用Lucene来提供全文检索的功能,如我们经常使用的Eclipse的帮助子系统,就是使用Lucene实现的。(在第一次使用的时候,会有一个进度条,那是在创建索引)。
Lucene使用的HelloWorld
HelloWorld程序有两个操作:创建索引与进行有哪些信誉好的足球投注网站。
添加Lucene环境
添加jar包
lucene-core-2.4.0.jar(核心);
contrib/analyzers/lucene-analyzers-2.4.0.jar(分词器);
contrib/highlighter/lucene-highlighter-2.4.0.jar(高亮器);
建立索引
进行有哪些信誉好的足球投注网站
练习:使用Lucene进行索引与有哪些信誉好的足球投注网站,完成建立索引与有哪些信誉好的足球投注网站的两个方法。
小结
基础的和重要的类与方法
IndexWriter:操作索引库,增删改
// 构造方法:如果索引库不存在,会自动创建。如果存在,就使用他
new IndexWriter(String/Directory indexPath, Analyzer a, MaxFieldLen
文档评论(0)