- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Solr中国8月17日周末沙龙PPT整理
Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China WebSite : www.solr.cc QQGroup : Solr Community of China ? Copyright www.solr.cc 三劫散仙 support@solr.cc 8月17日晚8:00 Solr中国周末沙龙 关注微信获知必威体育精装版活动 行业 信息采集,加工,检索 案例 使用Lucene完成加工数据的部分查询业务 问题 Lucene里前置*模糊带来的查询速度慢的问题 解决方案 反转字段,避免前置*模糊检索 本案例是对已有的千万级英文文献数据的一个加工处理的业务,对处理完的文献数据提供给其他兄弟组使用solr部署检索方案。在加工处理的流程中,因业务需要根据MetaMap相似度匹配算法,提取最有效的短语片段,故需要频繁使用Lucene中的通配符匹配来与词典库,语料库进行交互。 案例背景 系统拓扑 对于任意从文献中提取出来长度大于等于2的短语片段,使用模糊匹配规则 例子: 对于短语片段 a b c都要处理成如下10种形式进行匹配 * a b c , a * b c , a b * c , a b c * ,* b c,a * c,a b *, b c,a c,a b 对于短语片段 a b都要处理成如下6种形式进行匹配 * a b , a * b , a b * ,* b ,a * , a, b 不同短语长度的片段个数不一样,但每条短语都有2个前置*模糊查询 模糊匹配使用的词典库数据量很小只有320多万。 每篇文献抽取出来的需要进行模糊匹配短语片段平均约15个,每个短语片段按如上的规则形式进行匹配前加工处理,这样每篇文献能得到约30个最耗时前置*的模糊匹配,相当于在很短时间内要进行大量的模糊匹配 流程简析 (1), 最早使用的方式,是采用关系型数据库SQL Server 2005的版本进行模糊匹配方式的处理,平均耗时21秒左右。 (2),使用K-V数据库cassandra,后发现其不支持模糊检索,故弃用 (3),使用全文检索框架Lucene作为最终方案,经优化后 效果良好。 方案探索 解决思路 采取空间换时间的策略,在索引文件多加一个匹配字段的的反转字段,然后在程序加入判断,当匹配语句中遇到一*开头的查询字符串,就反转此字符串与索引库中对应的对应的反转字段进行匹配,这样一来,条件就转变为后置*查询,所以可以提升检索速度,效果明显。由原来的10秒左右,变为4秒左右。 例子: 查询字符串 * a b c ===c b a * 与索引库的反转列进行匹配 查询字符串 * b c ===c b * 与索引库的反转列进行匹配 问题本质 为什么使用前置*模糊比*号出现在中间或后面对性能影响大? 当使用中间或后置模糊时,可以根据首字符大大减少匹配时有哪些信誉好的足球投注网站枚举结果的个数,当*号前置时,lucene会强制其扫描所有的文件索引,并枚举检索每
您可能关注的文档
- RFTX荣付天下商业计划书.ppt
- RGC不同血清浓度实验结果.ppt
- RGC 10 血清浓度实验结果.ppt
- PTN原理培训.ppt
- RDS最佳实践 用户版 玄惭20140825.ppt
- RFID的组网技术.ppt
- RO+EDI大型超纯水设备工艺介绍.ppt
- rs232串口通讯的概念及接口电路.ppt
- ROST动态数据抓取和分析工具.ppt
- s7 1200轻松实现设备通讯.ppt
- 2025年文创IP衍生品设计评价体系在智能交通产品中的创新设计.docx
- 2025年文创IP衍生品设计评价体系在智能交通控制系统中的应用.docx
- 2025年乡村民俗文化博物馆跨境数字展览用户体验与优化策略报告.docx
- 针对2025年下沉市场的快消品企业渠道下沉策略与渠道合作伙伴关系深化报告.docx
- B2B行业2025年采购决策者心理分析:沟通策略优化研究.docx
- 2025年在线教育学员流失原因及行业影响分析报告.docx
- 2025年文创IP衍生品设计评价体系在智能家居产品中的实践.docx
- 职业教育就业质量提升与人才培养模式创新研究报告.docx
- 2025-2030中国粤菜馆行业市场发展现状及竞争格局与投资前景研究报告.docx
- 智慧农业灌溉系统在农业节水减排中的技术突破与应用报告.docx
最近下载
- 成本费用管理制度(最终版).pdf VIP
- 3海港总体设计规范_培训讲义-航道、锚地分析报告.pdf VIP
- 电力设备预防性试验规程QCSG114002-2011版资料.doc VIP
- Legally Blonde Scripts 律政俏佳人(中英对照).pdf VIP
- 浙江省消防技术规范难点问题操作技术指南-2025修订稿(定稿).pdf VIP
- 中华人民共和国民法典系列第七编侵权责任解读PPT课件.pptx VIP
- OWASP大语言模型人工智能应用Top10安全威胁2025.docx
- 530601-高职工商企业管理专业教学标准.pdf VIP
- 种植土覆土绿化施工方案.docx
- 2025年阿里云客服专项客服条件检测认证考试试题及答案.docx VIP
文档评论(0)