- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1步1步学lucene——(第三步:索引篇)
lucene与关系型数据库
从两个角度比较一下吧,一个是从索引方面,一个是模糊查询,其实归为一类的化就是全文检索的对比。
1、索引的对比
对比
全文检索库 (Lucene) 关系型数据库
项
核心功 以文本检索为主,插入、删除、修改比较麻烦,适合于大文本块的 插入、删除、修改十分方便,有专门的SQL命令,但对于大文
能 查询。 本块类型的检索效率较低。
与数据库类似,都可以建多个库,而且各个库的存储位置可以不 可以建多个库。一般每个库都有控制文件和数据文件等,比较
库
同。 复杂。
没有严格的表的概念,Lucene的表只是由入库时的定义字段松散
表 有严格的表结构,有主键,有字段类型等
构成
由于没有严格的表的概念,所以记录体现为一个对象,记录对应的
记录 Record,与表结构对应。
类是Doc ument 。
字段类型只有文本和日期两种,字段一般不支持运算,更无函数功
字段 字段类型丰富,功能强大。
能,字段对应的类是Field类。
查询结 在Lucene里表示查询结果集的类是Hits,如
在JDBC中使用Resultset
果集 hits(doc 1,doc 2,doc 3……)
2、模糊查询的对比
对比
Lucene全文检索 数据库模糊查询
项
无法使用数据库索引,需要遍历所有记录进行模糊匹配,所以查
索引 将数据源中的数据——建立倒排索引,速度较快
询速度有多个数量级的下降
匹配 通过词元匹配,通过语言分析接口进行关键诩拆分,能够实现对中文
由于是模糊查询,匹配不精确,可能查出无关信息或漏查信息
效果 的支持
匹配 没有匹配度算法,一个关键词在记录中出现多少次结果都是一样
有匹配度算法,将匹配度比较高的结果排在前面
度 的
结果 通过特别的算法,将匹配度最高的头100条结果输出,结果集是缓冲 返回所有的结果集,在匹配条目非常多的时候需要大量的内存存
输出 式的小批量读取的,系统开销较小 放这些临时结果集,系统开销大
可定
通过API接口可定制出符合检索排序需要的排序规则 不可定制
制性
适用 高负载的模糊查询应用,索引资料量比较大,速度要求比较快,匹配 使用率低,模糊匹配规则的简单或者需要模糊查询的资料量少的
情况 度要求比较高的情况 情况
索引创建的过程
索引创建的过程可以分为将原始文档转换成文本、分析文本、将分析好的文本保存至索引中这么几个过程。
图:lucene构建索引过程
1、提取文本的过程可以使用我们自己的处理方式也可以使用开源框架Tika来处理。
2、分析文档这个过程很重要,当我们建立起文档和域之后,就可以使用IndexW riter对象的addDocument
方法将数据传递给Lucene进行索引操作了。
3、当输入数据分析完毕后,就可以将分析的结果写入到索引文件中了。Lucene将输入数据以一种倒排索引
的数据结构进行存储。
什么是倒排索引
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属
性值的各记录的地址。由于不是由记录
文档评论(0)