- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Spark及其生态圈简介详解
Spark 及其生态圈简介 第 1 页 共 18 页 出自石山园,博客地址:/shishanyuan 目 录 1 简介3 1.1 SPARK简介3 1.2 SPARK与HADOOP差异4 1.3 SPARK 的适用场景5 1.4 SPARK演进时间表5 1.5 SPARK成功案例6 1.6 SPARK术语7 1.6.1 Spark运行模式 7 1.6.2 Spark常用术语8 2 生态系统8 2.1 SPARK CORE 9 2.2 SPARKSTREAMING 10 2.3 SPARK SQL12 2.4 BLINKDB13 2.5 MLBASE/MLLIB 14 2.6 GRAPHX 15 2.7 SPARKR 16 2.8 TACHYON 17 第 2 页 共 18 页 出自石山园,博客地址:/shishanyuan Spark 及其生态圈简介 1 简介 1.1 Spark 简介 Spark 是加州大学伯克利分校AMP 实验室(Algorithms, Machines, and People Lab )开 发通用内存并行计算框架。Spark 在 2013 年 6 月进入Apache 成为孵化项目,8 个月后成为 Apache 顶级项目 ,速度之快足见过人之处 ,Spark 以其先进的设计理念,迅速成为社区的热门 项目 ,围绕着Spark 推出了Spark SQL、Spark Streaming、MLLib 和GraphX 等组件 ,也就 是 BDAS (伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。从各方面报道 来看Spark 抱负并非池鱼,而是希望替代 Hadoop 在大数据中的地位,成为大数据处理的主流 标准 ,不过Spark 还没有太多大项目的检验,离这个目标还有很大路要走。 Spark 使用Scala 语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集 合对象一样轻松地操作分布式数据集(Scala 提供一个称为 Actor 的并行模型,其中Actor 通 过它的收件箱来发送和接收非同步信息而不是共享数据 ,该方式被称为:Shared Nothing 模 型)。在Spark 官网上介绍,它具有运行速度快、易用性好、通用性强和随处运行等特点。 运行速度快 Spark 拥有 DAG 执行引擎,支持在内存中对数据进行迭代计算。官方提供的数据表明, 如果数据由磁盘读取,速度是Hadoop MapReduce 的10 倍以上,如果数据从内存中读取, 速度可以高达100 多倍。 易用性好 Spark 不仅支持 Scala 编写应用程序,而且支持Java 和 Python 等语言进行编写 ,特别 是Scala 是一种高效、可拓展的语言 ,能够用简洁的代码处理较为复杂的处理工作。 通用性强 Spark 生态圈即 BDAS (伯克利数据分析栈)包含了 Spark Core、Spark SQL、Spark 第 3 页 共 18 页 出自石山园,博客地址:/shishanyuan Streaming、MLLib 和GraphX 等组件,这些组件分别处理Spark Core 提供内存计算框架、 SparkStreaming 的实时处理应用、Spark SQL 的即席查询、MLlib 或MLbase 的机器学习 和GraphX 的图处理 ,它们都是由AMP 实验室提供,能够无缝的集成并提供一站式解决平 台。 随处运行 Spark 具有很强的适应性 ,能够读取HDFS、Cassandra、HBase、S3 和Techyon 为持 久层读写原生数据 ,能够以Mesos、YARN 和自身携带的Standalone 作为资源管理器调度 job ,来完成Spark 应用程序的计算。 1.2 Spark 与Hadoop 差异 Spark 是在借鉴
您可能关注的文档
- ProfileofCompany-DanfossHeating详解.pdf
- SDSS-096壳牌氮氧化物去除系统详解.pdf
- Server2000数据库管理(专题学习)摘要.ppt
- SGSHongKongLimited香港通用檢測認證有限公司详解.pdf
- ShittyFirstDrafts-UniversityofKentucky详解.pdf
- SGSQUALITYSYSTEMAUDIT详解.pdf
- SinopecQ32010ResultsPressReleaseChiFinal详解.pdf
- Shell-Paques详解.pdf
- SIMEASQ80电能质量记录器详解.pdf
- simbrandcasedescpritionpage1详解.pdf
有哪些信誉好的足球投注网站
文档评论(0)