- 1、本文档共7页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国内最具影响力信息技术培训领导者数环云创(北京)科技有限公司
关于举办“企业级大数据spark核心开发公开课”培训通知 数环出品,必属精品! 数环云创——国内IT领域最具专业的培训与项目咨询、解决方案服务提供商,为客户(企业)量身定做培训计划,并有始有终地执行与实施,提供满足企业整体培训的解决方案。核心项目是大数据和云计算等系列技术,主要培训课程有Hadoop、spark、storm、openstack、docker等 我们的优势:拥有一批来自一线BAT、知名互联网科技和外资企业的开发与管理人员,具有金融行业、电信行业、互联网行业、电商行业、医疗行业、公安交通等大数据和云计算项目实施的经验者。数环云创是您企业培训的最佳选择,数环云创将致力于打造企业技术培训的领航者。 课程简述Spark是最近非常流行的一个分布式内存计算模型,Spark旨在延长MapReduce的迭代算法和交互低延迟数据挖掘的。Spark更适合于迭代运算比较多的ML和DM运算,one stack rule them all!spark号称一个平台可以适合所有的应用,如SQL、spark streaming、spark mllib、Graph等等。Spark三天课程注重原理,丰富的案例和大型互联网实战详解。课程背景Hadoop:分布式批处理计算,强调批处理,常用于数据挖掘、分析Spark:是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms,Machines,and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。虽然 Spark 与 Hadoop 有相似之处,但它提供了具有有用差异的一个新的集群计算框架。首先,Spark 是为集群计算中的特定类型的工作负载而设计,即那些在并行操作之间重用工作数据集(比如机器学习算法)的工作负载。为了优化这些类型的工作负载,Spark 引进了内存集群计算的概念,可在内存集群计算中将数据集缓存在内存中,以缩短访问延迟.在大数据处理方面相信大家对hadoop已经耳熟能详,基于GoogleMap/Reduce来实现的Hadoop为开发者提供了map、reduce原语,使并行批处理程序变得非常地简单和优美。Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map,filter, flatMap,sample, groupByKey, reduceByKey, union,join, cogroup,mapValues, sort,partionBy等多种操作类型,他们把这些操作称为Transformations。同时还提供Count,collect, reduce, lookup, save等多种actions。这些多种多样的数据集操作类型,给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的分区等。可以说编程模型比Hadoop更灵活.课程目的 1)了解spark与MapReduce、strom分布式计算模型的区别和使用场景 2)深入理解spark模型的原理 3)能够使用java、python和scala进行spark应用开发 4)熟练使用spark、spark streaming、spark QL、spark mllib和spark graphX 5)了解spark在大型互联网的架构和使用场景 6)最后能够对大数据平台进行规划培训对象1)对spark有浓厚的兴趣2)公司一线的开发人员3)技术经理、架构师培训时间 2015年5月1517 上海(3天) 14号培训报到2015年5月22—24 广州(3天) 21号培训报到2015年5月2931 丽江(3天) 28号培训报到2015年6月0507 昆明(3天)
您可能关注的文档
- 厦门大学2005年《生物化学》考研真题与答案.pdf
- 厦门大学2008年《生物化学》考研真题与答案.pdf
- 厦门大学2010年《生物化学》考研真题.pdf
- 厦门大学2009年《生物化学》考研真题与答案.pdf
- 厦门大学考研《354汉语基础》历年真题解析.pdf
- 厦门大学2014年《生物化学》考研真题.pdf
- 厦门大学—小飞(829材料科学基础完)冲刺串讲及模拟四套卷.pdf
- 一百分爱过不过.docx
- 厦门大学—小飞(829材料科学基础完)命题规律分析及常考知识点.pdf
- 本部实验指导书(戴日单检灯).doc
- 1616 袁梅主讲 黄伯荣《现代汉语》(第四版)(上,下册)考点精讲及复习思路.pdf
- 数环云创--企业级hadoop实战高级应用与开发.docx
- 2317 袁梅主讲 黄伯荣《现代汉语》(第四版)(上,下册)名校真题解析及典型题精讲精练.pdf
- 2425 袁梅主讲 黄伯荣《现代汉语》(第四版)(上,下册)冲刺串讲及模拟四套卷.pdf
- 2467 岳成浩主讲 夏书章《行政管理学》(第四版)考点精讲及复习思路.pdf
- 3208 高天成主讲 王力《古代汉语》名校真题解析及典型题精讲精练.pdf
- 2575 高天成主讲 王力《古代汉语》考点精讲及复习思路.pdf
- 3526 高天成主讲 王力《古代汉语》冲刺串讲及模拟六套卷.pdf
- 4115 陈晓辉主讲 童庆炳《文学理论教程》冲刺串讲及模拟四套卷.pdf
- 4091 陈晓辉主讲 童庆炳《文学理论教程》考点精讲及复习思路.pdf
文档评论(0)