“云计算(第三版)”配套之20:第6章Hadoop2.0大家族(一).pptxVIP

“云计算(第三版)”配套之20:第6章Hadoop2.0大家族(一).pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
“云计算(第三版)”配套之20:第6章Hadoop2.0大家族(一)

分布式存储服务 分布式操作系统服务 分布式数据库 分布式锁 数据挖掘库 Hadoop 2.0 大家族 … … 本章主要介绍分布式环境下除Hadoop外的其他组件 6.1 Hadoop 2.0大家族概述 6.1.1 分布式组件 6.1.2 部署概述 4 6.1 Hadoop 2.0大家族概述 组件简介 1 Apache ZooKeeper 主要是用来解决多个分布式应用遇到的互斥协作与通信问题,大大简化分布式应用协调及其管理的难度。 分布式、开源的协调服务 2 Apache Hbase 高可靠性、高性能、面向列、可伸缩。可在廉价PC Server上搭建大规模结构化存储集群。 分布式存储系统 3 Apache Pig 提供类SQL类型语言,该语言的编译器会把用户写好的Pig型类SQL脚本转换为一系列经过优化的MR操作并负责向集群提交任务。 基于Hadoop的大规模数据分析工具 4 Apache Hive 将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MR统计,适合数据仓库的统计分析。 基于Hadoop的一个数据仓库工具 5 6.1 Hadoop 2.0大家族概述 组件简介 5 Apache Oozie 用于管理和协调运行在Hadoop平台上各种类型任务(HDFS、Pig、MR、Shell,Java等)。 工作流引擎服务 6 Apache Flume 可用于日志数据收集、处理和传输,功能类似于Chukwa,但比Chukwa更小巧实用。 分布式日志数据聚合与传输工具 7 Apache Mahout 提供了大量机器学习算法的MR实现,并提供了一系列工具,简化了从建模到测试流程。 基于Hadoop的分布式程序库 8 Apache Sqoop 将一个关系型数据库(MySQL 、Oracle 、Postgres等)中的数据导入Hadoop的HDFS中,也可以将HDFS的数据导入关系型数据库中。 数据相互转移的工具 6 6.1 Hadoop 2.0大家族概述 组件简介 9 Apache Cassandra 用于存储简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。 一套开源分布式NoSQL数据库系统 10 Apache Avro 用于大批量数据实时动态交换,它是新的数据序列化与传输工具,估计会逐步取代Hadoop原有的RPC机制。 数据序列化系统 11 Apache Ambari 提供Hadoop集群的部署、管理和监控等功能,为运维人员管理Hadoop集群提供了强大的Web界面。 Hadoop及其组件的Web工具 12 Apache Chukwa 它可以将各种各样类型的数据收集与导入Hadoop。 分布式的数据收集与传输系统 7 6.1 Hadoop 2.0大家族概述 组件简介 13 Apache Hama 可用于包括图、矩阵和网络算法在内的大规模、大数据计算。 基于HDFS的BSP并行计算框架 14 Apache Giraph 灵感来自BSP (Bulk Synchronous Parallel) 和Google 的Pregel。 基于Hadoop的分布式迭代图处理系统 15 Apache Crunch 用于创建MR程序,与Hive、Pig类似,Crunch提供了用于实现如连接数据、执行聚合和排序记录等常见任务的模式库。 基于Google的FlumeJava库编写的Java库 16 Apache Whirr 提供高度的互补性,Whirr支持Amazon EC2和Rackspace服务。 一套运行于云服务的类库 8 6.1 Hadoop 2.0大家族概述 组件简介 17 Apache Bigtop 解决组件间版本依赖、冲突问题,实际上当用户用rpm或yum方式部署时,脚本内部会用到它。 针对Hadoop及其周边组件的打包、分发和测试工具 18 Apache HCatalog 可用于管理HDFS元数据,它跨越Hadoop和RDBMS,可以利用Pig和Hive提供关系视图。 基于Hadoop的数据表和存储管理工具 19 Cloudera Hue 实现对HDFS、Yarn、MapReduce、Hbase、Hive、Pig等的Web化操作。 Hadoop及其生态圈组件的Web编辑工具 9 6.1 Hadoop 2.0大家族概述 组件分类 1 分布式存储 HDFS 2 分布式操作系统 Yarn 3 分布式处理算法 MapReduce 4 分布式锁服务 ZooKeeper 5 分布式数据库 Hbase 6 分布式锁服务 Oozie Cassandra 7 高层语言 Pig Hive Impala RHadoop 8 机器学习库 Mahout Giraph Hama RHad

您可能关注的文档

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档