数环云创--企业级Spark核心开发公开课.docxVIP

下载本文档

33
0
约3.84千字
约 7页
2018-01-14 发布于未知
举报
版权申诉

数环云创--企业级Spark核心开发公开课.docx

1、本文档共7页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

国内最具影响力信息技术培训领导者数环云创（北京）科技有限公司关于举办“企业级大数据spark核心开发公开课”培训通知数环出品，必属精品！数环云创——国内IT领域最具专业的培训与项目咨询、解决方案服务提供商，为客户（企业）量身定做培训计划，并有始有终地执行与实施，提供满足企业整体培训的解决方案。核心项目是大数据和云计算等系列技术，主要培训课程有Hadoop、spark、storm、openstack、docker等我们的优势：拥有一批来自一线BAT、知名互联网科技和外资企业的开发与管理人员，具有金融行业、电信行业、互联网行业、电商行业、医疗行业、公安交通等大数据和云计算项目实施的经验者。数环云创是您企业培训的最佳选择，数环云创将致力于打造企业技术培训的领航者。课程简述Spark是最近非常流行的一个分布式内存计算模型，Spark旨在延长MapReduce的迭代算法和交互低延迟数据挖掘的。Spark更适合于迭代运算比较多的ML和DM运算，one stack rule them all！spark号称一个平台可以适合所有的应用，如SQL、spark streaming、spark mllib、Graph等等。Spark三天课程注重原理，丰富的案例和大型互联网实战详解。课程背景Hadoop:分布式批处理计算，强调批处理，常用于数据挖掘、分析Spark:是一个基于内存计算的开源的集群计算系统，目的是让数据分析更加快速, Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms,Machines,and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。虽然 Spark 与 Hadoop 有相似之处，但它提供了具有有用差异的一个新的集群计算框架。首先，Spark 是为集群计算中的特定类型的工作负载而设计，即那些在并行操作之间重用工作数据集（比如机器学习算法）的工作负载。为了优化这些类型的工作负载，Spark 引进了内存集群计算的概念，可在内存集群计算中将数据集缓存在内存中，以缩短访问延迟.在大数据处理方面相信大家对hadoop已经耳熟能详，基于GoogleMap/Reduce来实现的Hadoop为开发者提供了map、reduce原语，使并行批处理程序变得非常地简单和优美。Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Reduce两种操作。比如map,filter, flatMap,sample, groupByKey, reduceByKey, union,join, cogroup,mapValues, sort,partionBy等多种操作类型，他们把这些操作称为Transformations。同时还提供Count,collect, reduce, lookup, save等多种actions。这些多种多样的数据集操作类型，给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，物化，控制中间结果的分区等。可以说编程模型比Hadoop更灵活.课程目的 1）了解spark与MapReduce、strom分布式计算模型的区别和使用场景 2）深入理解spark模型的原理 3）能够使用java、python和scala进行spark应用开发 4）熟练使用spark、spark streaming、spark QL、spark mllib和spark graphX 5）了解spark在大型互联网的架构和使用场景 6）最后能够对大数据平台进行规划培训对象1）对spark有浓厚的兴趣2）公司一线的开发人员3）技术经理、架构师培训时间 2015年5月1517 上海（3天） 14号培训报到2015年5月22—24 广州（3天） 21号培训报到2015年5月2931 丽江（3天） 28号培训报到2015年6月0507 昆明（3天）