- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
构建大规模信息检索系统中的挑战
构建大规模信息检索系统中的
挑战
Jeff Dean
Google Fellow
jeff@
翻译:银杏泰克有限公司 郝培强
Tinyfool@
/dev
为什么在信息检索公司工作
既有科学又有技术方面的挑战
许多有趣的未解的问题
涵盖计算机科学的诸多领域:
架构,分布式系统,算法,压缩,信息检索,机器学
习,界面,等等。
规模远大于大多数其他系统
小团队就可以构建上亿用户使用的系统
信息检索系统的尺寸
必须在下列工程参数之间平衡取舍:
索引的文档数
每秒查询数
索引的新鲜程度/更新率
查询延迟
每个文档保存的信息
评分/检索算法的复杂度和开销
工程难度大致等于这些参数的乘积
以上这些参数影响整体的性能,以单位成本下的性能
1999 和 2009
文档数: 约7000万到数百 约100倍
亿 约1000倍
每日处理查询数: 约3倍
索引中每个文档的信息数: 约10000倍
更新延迟:从月到分钟 约5倍
平均查询延迟: 小于1秒到小于0.2秒 约1000倍
更多机器*更快的机器:
唯一不变的是改变本身
参数随时在变
常常是几个数量级的改变
在X规模下正确的设计在10X或100X规模下可能完全是错
的
…以10倍规模的增长设计系统,在100倍增长之前计划重
写系统
持续进化:
10年间7个重大版本
经常推出新版本,但是用户完全不知道我们做出了重大改
变
其余要讨论的
Google有哪些信誉好的足球投注网站系统的演化
几代 抓取/索引/服务 系统
底层架构的简要描述
许多许多人一起工作
有趣的方向和挑战
1997年的Google()
研究项目,1997年
索引的分割方法
按文档分割:每个分片包含索引的全部文档的一个子集
利:每个分片可以独立处理查询
利:便于保存每个文档的格外信息
利:网络传输量(请求和响应)少
弊:必须在每个分片上执行查询
弊:N个分片,K个词的查询需要O(K*N)次的磁盘寻道
按词分割:每个分片包含文档中所有词的一个子集
利:K个词的查询=最多需要K个分片处理
利:K个词的查询需要O(K)次的磁盘寻道
弊:需要更高的网络带宽
每个匹配文档的每个词的数据必须集合到一起(译注:
进行处理)
弊:难以保持基于文档的信息
索引的分割方法
针对我们的计算环境,按文档分割更加靠谱
基本原则
被赋予较小整数编号(docids)的文档
最好令高质量/重要的文档的编号更小
索引服务器
针对给定(查询)返回排序后的(分数
文档评论(0)