一淘网技术简介.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一淘网技术简介

一淘网技术简介 一淘网 ( www.et ao .co m )于2010年10月9 日10:39正式上线 ,很多同学和同行对一淘的系统架构和 面 的关键技术问题都很感兴趣 ,这篇短文希望能给予简要的介绍。 系统架构 一淘的系统架构如上图所示。可以看到 ,一淘有三个数据来源 :互联网、外部合作方和淘宝主站。 其中 ,互联网数据通过craw l的方式获得 ,而后两者则通过f eed的方式提供。 抓取系统的功能包括 :网页抓取、抓取调度、域名解析、死链检测、JavaScript 执行等。目前 ,一 淘的资讯、话题、问答co mbo 中的大部分数据都是通过抓取系统从互联网获得的。它是一淘一个重 要的“原料厂”。 离线处理系统是一个功能众多、可灵活定制的Pipeline ,其主要功能有 :网页编码识别与转换、网页 解析与内容抽取、购物相关站点发现、列表页识别、网页分类与消重、链接提取与合并、关键词 提取、众多网页静态f eat ure的提取。它是一淘的“加工厂”。 存储系统负责存储抓取系统和离线处理系统的产出 ,同时向这两个“厂”提供高性能、大容量的存取 服务。目前我们采用的是Hadoo p HBase的体系结构 ,将网页、链接、图片进行了分类存放。存储 系统是一淘存放原料、半成品的“ 心仓库”。 在线引擎负责对一淘前端有哪些信誉好的足球投注网站请求返回查询结果 ,它生成索引的数据来自存储系统。在线引擎是一 淘面向用户的“成品生产车间”。值得一提的是 ,一淘采用了阿里集团新一代的HA 2引擎技术 ,HA 2 结合了开源引擎和阿里上一代引擎技术的设计优点 ,在支持全文检索的同时 ,兼备了商品有哪些信誉好的足球投注网站的各 种功能。它目前提供的主要特性有 : 数据规模 :支持的数据规模从一台机器(part it io n)到几百台机器 ; 更新速度 :支持全量数据更新 ,以及最快支持分钟级的增量更新 ; 数据类型 :允许用户定义各种的数据类型 ,从单字段到几十个字段。字段的类型可以是t ext , st ring, number等 ; 查询语法 :支持简单的单一条件查询 , 以及复杂的各种条件组合查询、过滤 ; 相关性计算 :支持最多三阶段相关性计算 ,提供丰富的信息供用户自定义每一个阶段的算分方法 ; 统计导航 :支持对检索到的结果做灵活的分组统计和智能导航。 一淘前端负责向终端用户展现有哪些信誉好的足球投注网站结果页 ,它是一淘的“门店” ,设有各式各样橱窗 :商品、淘吧、 资讯、论坛、问答、图片、网页等。保证这个门店正常运转的机制包括 : Boot st rap :负责查询词合法性检查、编码识别与转换、停止词和违禁词过滤。 Q uery Planner :负责查询词重写 (Q uery Rew rit e )、主辅词识别、商品类目预测、Co mbo排序 、大小写转换、同义词和多义词 ,等等。 RMO D :负责向各类后端服务接口发起并发请求 ,并将返回结果进行整合用于页面展现。 Cache :负责分布式缓存有哪些信誉好的足球投注网站结果数据 ,从而缩短响应时间 ,提高前端系统的吞吐量。 此外 ,为了一淘团队的运营效率 ,我们还在构建一套“从收集Q uery和Click日志开始 ,进行数据统计 、关联分析、异常报警和人工调整等相关流程”的以Q uery为中心的运营工具。 一淘的小二们深知 :如何使我们打造的这些橱窗所展现的内容具有越来越精准的 “导购相关性” ,是 一淘面向用户的 心价值 。如何进入朝这个方向持续发展的正循环呢 ?我们目前的思路是 :构建一 套结合“Q uery分析”和“网页分析”的多层次排序模型 ,在保证相关性的前提下 ,灵活快速地调整模型 结构以适应变化的业务需求。 Q uery分析的目的是理解用户的查询意图 ,并将此意图转化成排序时可用的信息影响最终排序结果 ,如 : 浏览型 :没有明确的购物对象和意图 ,边看边买 ,用户比较随意和感性。Q uery例如 :”2010年10 大香水排行” ,”2010年流行毛衣” , “z ippo有多少种类 ?” ; 查询型 :有一定的购物意图 ,体现在对属性的要求上。Q uery例如 :”适合老人用的手机” ,”500元 手表” ; 对比型 :已经缩小了购物意图 ,具体到了某几个产品。Q uery例如 :”诺基亚E71 E63″ ,”akg k4 50 px200″ ; 确定型 :已经做了基本决定 ,重点考察某个对象。Q uery例如 :”诺基亚N97″ ,”IBM T 60″。 随着一淘用户越来越多 ,我们也会进一步挖掘用户查询需求 ,拓展意图分析种类。 网页分

文档评论(0)

wyw118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档