ServerTips肖诗斌.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ServerTips肖诗斌

主要是网罗了来自内网或者其他的一些经验,可供参考,但要注意时间/版本的影响因素; 一、快速检索 By 肖诗斌 一. 本周测试了一个TRS数据库: 人民日报1000万篇新闻稿. 标题中检索vs正文中检索,速度至少有1个数量级别的提高. 基于目前的TRS全文检索系统, 如果不需要报告准确结果记录数, 建议有哪些信誉好的足球投注网站引擎应用采用如下做法: 先在小字段检索(例如标题等), 快速返回结果; 没有结果或浏览记录数不足时,再检索大字段(例如正文). 例如TRS InfoRadar采集后的TRS数据库,可以先在标题和链接文本字段检索. 基于Lucene的此类有哪些信誉好的足球投注网站引擎应用也需要这个解决方案, 一般做法也是先在小字段检索... 二. 主要的排序字段(例如日期), 其字段属性设置为缓冲数据, 加快排序时字段值的读取速度, 对于大库有很大的性能提高. 三. 基本知识解释: TRS Database Server是一个全文检索引擎, 面向很多检索应用,例如文档管理/图书馆书目全文检索/政务信息检索/专利检索等诸多应用. 和Lucene的设计理念极其类似, 它不是直接面向有哪些信誉好的足球投注网站引擎应用, 所以对于有哪些信誉好的足球投注网站引擎应用, 需要二次开发优化. 二、Server停用词典的使用 TRS Server中的停用词典的使用 by 王弘蔚 我发现许多项目都不使用停用词典,不知是何原因。 不使用停用词典的负面影响是: 1、所有的符号(包括标点符号)都建索引,而这些索引可能没有什么用。 2、所有的符号都是一个“词”,影响LIKE函数的使用。 如果觉得系统提供的停用词典中的几个汉字有问题,可以删除它们(6.5的词典已删除),而不是整个废了。 三、多库之间的相关性排序问题 多库之间的相关性排序问题 当前位置:产品研发 TRS基础产品 [作者] 王弘蔚 (产品一部经理) 2007-12-13 10:04:43 总分:1 评价人数:1 TRS Server里的相关性排序是基于TF*IDF算法的,在这个算法里IDF=(TOTAL RECORDS÷HIT RECORDS),所以说IDF是与库相关的,通俗地说,IDF的作用是表现一个词在一个库中的重要程度(TF作用则是表现一个词在一个记录中的重要程度)。由于一个词在不同的库中的IDF值不可能一样,这样就导致相关性排序不准确。 要解决这个问题,思路之一是提供一个统一的IDF知识库,使得IDF与库无关。这种方法的缺点是难以统计生成IDF知识库;如果一个词不在IDF知识库中时还是无法处理;IDF知识库应该是庞大的,尤其遇到按字索引和英文索引,势必影响检索/排序性能。另一种思路是干脆不考虑IDF,也就是说忽略不同词之间的差别,所有的词同等重要。但这样处理后不知是否会有其它的副作用,或者还有更好的方法? 引用 │ 收入专题 打印 - 发布时间:2007-12-13 10:04:43 #1 (2007-12-13 11:07:04) (还好) 上海李勇 ( 项目经理 ) 能否先试试不考虑IDF策略 ,如果副作用在应用面可以接受的话,还是可行的,毕竟分布式应用的多库检索相关度排序还是很需要的 #2 (2008-01-24 15:53:30) 赵秋阳 ( 产品测试经理 ) 在必威体育精装版的3210版本里,已经加入了楼上所说的这个功能 效果还需要在实际中检验 #3 (2008-01-24 16:06:09) 林伟家 ( 产品研发经理 ) 该功能的初始需求背景是1楼所述的需求,测试时应该包含集群分布式检索的用例。 #4 (2008-01-24 17:27:50) 王洪俊 ( 产品五部经理 ) 关于IDF知识库的庞大问题,可以考虑这样来解决: 词语的文档频率分布满足Zipfs Law, 通俗地说,即少数词语的出现频率高,而大量词语的分布频率低. 对于出现频率低(例如低于5或者低于10)的词语,可以统一用一个值(例如5或10)来表示其频率,而库中只保存那些高频词语的出现频率. 这样可以有效地压缩IDF知识库的规模,对于检索结果的影响也非常微小. 按字索引和英文索引也可同样处理. 四、TRS如何检索空值 TRS如何检索空值 当前位置:产品研发 TRS基础产品 [作者] 马瑞祥 (高级项目工程师) 2007-04-09 10:49:43 总分:0 评价人数:0 如何检索field is null这种情形?用data()? 另外问一下《TRS全文数据库手册》哪有下载?谢谢 引用 │ 收入专题 打印 - 发布时间:2007-04-09 10:49:43 #1 (2007-04-09 11:08:24) 蔡兵祥 ( 高级服务工程师 ) field=%-field0 f

文档评论(0)

xjj2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档