构建大规模信息检索系统中的挑战.PDFVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
构建大规模信息检索系统中的挑战

构建大规模信息检索系统中的 挑战 Jeff Dean Google Fellow jeff@ 翻译:银杏泰克有限公司 郝培强 Tinyfool@ /dev 为什么在信息检索公司工作 既有科学又有技术方面的挑战 许多有趣的未解的问题 涵盖计算机科学的诸多领域: 架构,分布式系统,算法,压缩,信息检索,机器学 习,界面,等等。 规模远大于大多数其他系统 小团队就可以构建上亿用户使用的系统 信息检索系统的尺寸 必须在下列工程参数之间平衡取舍: 索引的文档数 每秒查询数 索引的新鲜程度/更新率 查询延迟 每个文档保存的信息  评分/检索算法的复杂度和开销 工程难度大致等于这些参数的乘积 以上这些参数影响整体的性能,以单位成本下的性能 1999 和 2009 文档数: 约7000万到数百 约100倍 亿 约1000倍 每日处理查询数: 约3倍 索引中每个文档的信息数:  约10000倍 更新延迟:从月到分钟 约5倍 平均查询延迟: 小于1秒到小于0.2秒 约1000倍 更多机器*更快的机器:  唯一不变的是改变本身 参数随时在变 常常是几个数量级的改变 在X规模下正确的设计在10X或100X规模下可能完全是错 的 …以10倍规模的增长设计系统,在100倍增长之前计划重 写系统 持续进化: 10年间7个重大版本 经常推出新版本,但是用户完全不知道我们做出了重大改 变 其余要讨论的 Google有哪些信誉好的足球投注网站系统的演化 几代 抓取/索引/服务 系统 底层架构的简要描述 许多许多人一起工作 有趣的方向和挑战 1997年的Google() 研究项目,1997年 索引的分割方法 按文档分割:每个分片包含索引的全部文档的一个子集 利:每个分片可以独立处理查询 利:便于保存每个文档的格外信息 利:网络传输量(请求和响应)少 弊:必须在每个分片上执行查询 弊:N个分片,K个词的查询需要O(K*N)次的磁盘寻道 按词分割:每个分片包含文档中所有词的一个子集 利:K个词的查询=最多需要K个分片处理 利:K个词的查询需要O(K)次的磁盘寻道 弊:需要更高的网络带宽 每个匹配文档的每个词的数据必须集合到一起(译注: 进行处理) 弊:难以保持基于文档的信息 索引的分割方法 针对我们的计算环境,按文档分割更加靠谱 基本原则 被赋予较小整数编号(docids)的文档 最好令高质量/重要的文档的编号更小 索引服务器 针对给定(查询)返回排序后的(分数

文档评论(0)

2105194781 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档