阿里分布式流数据实时与持续计算-20111124.pptx

阿里分布式流数据实时与持续计算-20111124.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
阿里分布式流数据实时与持续计算-20111124

领域答辩 -分布式流数据实时与持续计算领域 2011-11-24 Outline 背景 目标 职责 计划 团队 风险 背景 业务背景 数据量急剧增加 互联网2.0时代,计算由点到边 电子商务和移动互联网,移动支付 欺诈,风控对海量交易实时性 用户体验的个性化 用户体验的实时性 实时有哪些信誉好的足球投注网站,风控,BNS,安全,网站交易,推荐等 背景 技术背景 MAPREDUCE/DRYAD等全量/增量计算平台 S4,STORM等新型流计算框架 CEP以及EDA模型 Pregel等图计算模型 传统方案与业界进展 传统方案 MAPREDUCE:HDFS加载,存储LOCALITY(容错性),顺序IO,存储HDFS, 单输入,单输出 下载 Map 输入 shuffle reduce 输入 计算过程 输出 Mapreduce Job IProcess Job 独立数据Di 独立数据Dn latency Latency(i) Latency(n) 不足 Hadoop 全量场景,任务内串行 重吞吐量,响应时间完全没有保证 中间结果不可见,不可分享 单输入单输出,链式浪费严重 链式MR不能并行 粗粒度容错,可能会造成陷阱 图计算不友好 迭代计算不友好 业界进展 S4 2010年底,Yahoo,0.3,window todo Storm 2011.9,twitter,0.5.2 不足 S4,Storm处理“独立”流数据的处理。 无法处理“复杂”事件,需要用户handle复杂的条件 不能很好的适用于大部分需要相关数据集执行计算和流数据保序的实时场景。 容错性较差 集群无法动态扩展 只处理“流数据” 实时方面业界进展 StreamBase Borealis StreamInsight Percolator Hbase coprocessor Baidu? … 图计算-pregel 图计算 Mapreduce为什么不适合图计算? 迭代 边的量级远大于节点 Graph computing特点 适合事件机制,规模大(边) 局部性是难点容错性 Pregel 本质上还是全量 超步太多 iprocess 乱序执行,避免了不必要的超步 实时图计算,有些边慢,但效果可以渐显 目标 通用的分布式流数据实时与持续计算平台 构建技术生态体系 全面提升业务的实时处理能力 业界有影响力的技术产品 目标 通用的分布式流数据实时与持续计算平台 通用性,解决分布式系统中的问题 实时计算 持续计算 实时图计算 运算时扩容 应用,系统级容错 可扩展的编程模型 目标 构建技术生态体系 IPROCESS与风控计算平台RPM IPROCESS与BNS的图计算平台 IPROCESS与有哪些信誉好的足球投注网站数据中心,提供实时有哪些信誉好的足球投注网站服务 IPROCESS与SQL引擎 全面提升业务的实时处理能力 交易,用户行为的实时统计和数据挖掘 交易,欺诈,风险实时预警和响应 用户关系数据实时反馈和计算 实时有哪些信誉好的足球投注网站与网站数据实时处理和应用 实时业务数据统计 打通整站数据流的实时处理 目标 业界有影响力的技术产品 具有原创技术并发表影响力论文(osdi2012,…) 业界有技术影响力的会议(hadoop china 2011) Hive架设在IPROCESS Nutch架设IPROCESS提供整套实时有哪些信誉好的足球投注网站方案 部分开放分布式存储 建平台 通用的分布式流数据实时与持续计算平台 有向图模型,节点为用户组件,边为事件 子图优化,支持跨机器,同物理机多进程,线程池,单线程,保序 同时支持流模式(S4,STORM)和触发器模式 完备事件驱动的架构,定制复杂完备事件条件 树存储模型,支持不同级别定制不同一致性模型和事务模型 提出并支持树型MapReduce和增量/定时MR 支持相关集计算和Reduce时数据集生成(kmean) 提升迭代计算性能(机器学习) IProcess 持续与AD-HOC计算(endpoint) 多任务服务化,任务沙箱,优先级,任务调度 两级容错:应用级和系统级,运算时动态扩容 微内核+插件系统(系统级插件+用户模块) 系统级插件系统:实时join,二级索引,到排表,物化视图(cc),counter… 早停,删除 基础的运行系统 引入CEP规则引擎模块(RPM),类似hive,mr 引入数据集控制(用于机器学习),BI 引入类SQL语言 “每个节点”为用户编写的组件,该节点为逻辑节点,被称为processor,会被系统调度到多台物理机器形成逻辑集群,也就是说一个逻辑节点可能会有多台的物理机同时服务,从而形成逻辑集群,processor根据计算负载调度形成不同的逻辑集群。 而”边“为组件定义的完备事件。 系统的ProcessNode是加载,管理,调度用户组件processor的进程,不同的PN可以在不同的物理机也可以在相同的物

文档评论(0)

ddf55855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档