Solr中国8月17日周末沙龙PPT.pptVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Solr中国8月17日周末沙龙PPT整理

Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China ? Copyright www.solr.cc 三劫散仙 support@solr.cc 8月17日晚8:00 Solr中国周末沙龙 关注微信获知必威体育精装版活动 行业 信息采集,加工,检索 案例 使用Lucene完成加工数据的部分查询业务 问题 Lucene里前置*模糊带来的查询速度慢的问题 解决方案 反转字段,避免前置*模糊检索 本案例是对已有的千万级英文文献数据的一个加工处理的业务,对处理完的文献数据提供给其他兄弟组使用solr部署检索方案。在加工处理的流程中,因业务需要根据MetaMap相似度匹配算法,提取最有效的短语片段,故需要频繁使用Lucene中的通配符匹配来与词典库,语料库进行交互。 案例背景 系统拓扑 对于任意从文献中提取出来长度大于等于2的短语片段,使用模糊匹配规则 例子: 对于短语片段 a b c都要处理成如下10种形式进行匹配 * a b c , a * b c , a b * c , a b c * ,* b c,a * c,a b *, b c,a c,a b 对于短语片段 a b都要处理成如下6种形式进行匹配 * a b , a * b , a b * ,* b ,a * , a, b 不同短语长度的片段个数不一样,但每条短语都有2个前置*模糊查询 模糊匹配使用的词典库数据量很小只有320多万。 每篇文献抽取出来的需要进行模糊匹配短语片段平均约15个,每个短语片段按如上的规则形式进行匹配前加工处理,这样每篇文献能得到约30个最耗时前置*的模糊匹配,相当于在很短时间内要进行大量的模糊匹配 流程简析 (1), 最早使用的方式,是采用关系型数据库SQL Server 2005的版本进行模糊匹配方式的处理,平均耗时21秒左右。 (2),使用K-V数据库cassandra,后发现其不支持模糊检索,故弃用 (3),使用全文检索框架Lucene作为最终方案,经优化后 效果良好。 方案探索 解决思路 采取空间换时间的策略,在索引文件多加一个匹配字段的的反转字段,然后在程序加入判断,当匹配语句中遇到一*开头的查询字符串,就反转此字符串与索引库中对应的对应的反转字段进行匹配,这样一来,条件就转变为后置*查询,所以可以提升检索速度,效果明显。由原来的10秒左右,变为4秒左右。 例子: 查询字符串 * a b c ===c b a * 与索引库的反转列进行匹配 查询字符串 * b c ===c b * 与索引库的反转列进行匹配 问题本质 为什么使用前置*模糊比*号出现在中间或后面对性能影响大? 当使用中间或后置模糊时,可以根据首字符大大减少匹配时有哪些信誉好的足球投注网站枚举结果的个数,当*号前置时,lucene会强制其扫描所有的文件索引,并枚举检索每

文档评论(0)

chenchena + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档