- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ServerTips肖诗斌
主要是网罗了来自内网或者其他的一些经验,可供参考,但要注意时间/版本的影响因素;
一、快速检索
By 肖诗斌
一. 本周测试了一个TRS数据库: 人民日报1000万篇新闻稿.
标题中检索vs正文中检索,速度至少有1个数量级别的提高.
基于目前的TRS全文检索系统, 如果不需要报告准确结果记录数, 建议有哪些信誉好的足球投注网站引擎应用采用如下做法: 先在小字段检索(例如标题等), 快速返回结果; 没有结果或浏览记录数不足时,再检索大字段(例如正文). 例如TRS InfoRadar采集后的TRS数据库,可以先在标题和链接文本字段检索.
基于Lucene的此类有哪些信誉好的足球投注网站引擎应用也需要这个解决方案, 一般做法也是先在小字段检索...
二. 主要的排序字段(例如日期), 其字段属性设置为缓冲数据, 加快排序时字段值的读取速度, 对于大库有很大的性能提高.
三. 基本知识解释:
TRS Database Server是一个全文检索引擎, 面向很多检索应用,例如文档管理/图书馆书目全文检索/政务信息检索/专利检索等诸多应用. 和Lucene的设计理念极其类似, 它不是直接面向有哪些信誉好的足球投注网站引擎应用, 所以对于有哪些信誉好的足球投注网站引擎应用, 需要二次开发优化.
二、Server停用词典的使用
TRS Server中的停用词典的使用 by 王弘蔚
我发现许多项目都不使用停用词典,不知是何原因。
不使用停用词典的负面影响是:
1、所有的符号(包括标点符号)都建索引,而这些索引可能没有什么用。
2、所有的符号都是一个“词”,影响LIKE函数的使用。
如果觉得系统提供的停用词典中的几个汉字有问题,可以删除它们(6.5的词典已删除),而不是整个废了。
三、多库之间的相关性排序问题
多库之间的相关性排序问题
当前位置:产品研发 TRS基础产品
[作者] 王弘蔚 (产品一部经理) 2007-12-13 10:04:43 总分:1 评价人数:1
TRS Server里的相关性排序是基于TF*IDF算法的,在这个算法里IDF=(TOTAL RECORDS÷HIT RECORDS),所以说IDF是与库相关的,通俗地说,IDF的作用是表现一个词在一个库中的重要程度(TF作用则是表现一个词在一个记录中的重要程度)。由于一个词在不同的库中的IDF值不可能一样,这样就导致相关性排序不准确。
要解决这个问题,思路之一是提供一个统一的IDF知识库,使得IDF与库无关。这种方法的缺点是难以统计生成IDF知识库;如果一个词不在IDF知识库中时还是无法处理;IDF知识库应该是庞大的,尤其遇到按字索引和英文索引,势必影响检索/排序性能。另一种思路是干脆不考虑IDF,也就是说忽略不同词之间的差别,所有的词同等重要。但这样处理后不知是否会有其它的副作用,或者还有更好的方法?
引用 │ 收入专题 打印 - 发布时间:2007-12-13 10:04:43
#1 (2007-12-13 11:07:04) (还好)
上海李勇 ( 项目经理 )
能否先试试不考虑IDF策略 ,如果副作用在应用面可以接受的话,还是可行的,毕竟分布式应用的多库检索相关度排序还是很需要的
#2 (2008-01-24 15:53:30)
赵秋阳 ( 产品测试经理 )
在必威体育精装版的3210版本里,已经加入了楼上所说的这个功能
效果还需要在实际中检验
#3 (2008-01-24 16:06:09)
林伟家 ( 产品研发经理 )
该功能的初始需求背景是1楼所述的需求,测试时应该包含集群分布式检索的用例。
#4 (2008-01-24 17:27:50)
王洪俊 ( 产品五部经理 )
关于IDF知识库的庞大问题,可以考虑这样来解决:
词语的文档频率分布满足Zipfs Law, 通俗地说,即少数词语的出现频率高,而大量词语的分布频率低.
对于出现频率低(例如低于5或者低于10)的词语,可以统一用一个值(例如5或10)来表示其频率,而库中只保存那些高频词语的出现频率. 这样可以有效地压缩IDF知识库的规模,对于检索结果的影响也非常微小.
按字索引和英文索引也可同样处理.
四、TRS如何检索空值
TRS如何检索空值
当前位置:产品研发 TRS基础产品
[作者] 马瑞祥 (高级项目工程师) 2007-04-09 10:49:43 总分:0 评价人数:0
如何检索field is null这种情形?用data()?
另外问一下《TRS全文数据库手册》哪有下载?谢谢
引用 │ 收入专题 打印 - 发布时间:2007-04-09 10:49:43
#1 (2007-04-09 11:08:24)
蔡兵祥 ( 高级服务工程师 )
field=%-field0
f
文档评论(0)