Spark及其生态圈简介详解.pdfVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Spark及其生态圈简介详解

Spark 及其生态圈简介 第 1 页 共 18 页 出自石山园,博客地址:/shishanyuan 目 录 1 简介3 1.1 SPARK简介3 1.2 SPARK与HADOOP差异4 1.3 SPARK 的适用场景5 1.4 SPARK演进时间表5 1.5 SPARK成功案例6 1.6 SPARK术语7 1.6.1 Spark运行模式 7 1.6.2 Spark常用术语8 2 生态系统8 2.1 SPARK CORE 9 2.2 SPARKSTREAMING 10 2.3 SPARK SQL12 2.4 BLINKDB13 2.5 MLBASE/MLLIB 14 2.6 GRAPHX 15 2.7 SPARKR 16 2.8 TACHYON 17 第 2 页 共 18 页 出自石山园,博客地址:/shishanyuan Spark 及其生态圈简介 1 简介 1.1 Spark 简介 Spark 是加州大学伯克利分校AMP 实验室(Algorithms, Machines, and People Lab )开 发通用内存并行计算框架。Spark 在 2013 年 6 月进入Apache 成为孵化项目,8 个月后成为 Apache 顶级项目 ,速度之快足见过人之处 ,Spark 以其先进的设计理念,迅速成为社区的热门 项目 ,围绕着Spark 推出了Spark SQL、Spark Streaming、MLLib 和GraphX 等组件 ,也就 是 BDAS (伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。从各方面报道 来看Spark 抱负并非池鱼,而是希望替代 Hadoop 在大数据中的地位,成为大数据处理的主流 标准 ,不过Spark 还没有太多大项目的检验,离这个目标还有很大路要走。 Spark 使用Scala 语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集 合对象一样轻松地操作分布式数据集(Scala 提供一个称为 Actor 的并行模型,其中Actor 通 过它的收件箱来发送和接收非同步信息而不是共享数据 ,该方式被称为:Shared Nothing 模 型)。在Spark 官网上介绍,它具有运行速度快、易用性好、通用性强和随处运行等特点。  运行速度快 Spark 拥有 DAG 执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明, 如果数据由磁盘读取,速度是Hadoop MapReduce 的10 倍以上,如果数据从内存中读取, 速度可以高达100 多倍。  易用性好 Spark 不仅支持 Scala 编写应用程序,而且支持Java 和 Python 等语言进行编写 ,特别 是Scala 是一种高效、可拓展的语言 ,能够用简洁的代码处理较为复杂的处理工作。  通用性强 Spark 生态圈即 BDAS (伯克利数据分析栈)包含了 Spark Core、Spark SQL、Spark 第 3 页 共 18 页 出自石山园,博客地址:/shishanyuan Streaming、MLLib 和GraphX 等组件,这些组件分别处理Spark Core 提供内存计算框架、 SparkStreaming 的实时处理应用、Spark SQL 的即席查询、MLlib 或MLbase 的机器学习 和GraphX 的图处理 ,它们都是由AMP 实验室提供,能够无缝的集成并提供一站式解决平 台。  随处运行 Spark 具有很强的适应性 ,能够读取HDFS、Cassandra、HBase、S3 和Techyon 为持 久层读写原生数据 ,能够以Mesos、YARN 和自身携带的Standalone 作为资源管理器调度 job ,来完成Spark 应用程序的计算。 1.2 Spark 与Hadoop 差异 Spark 是在借鉴

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档