hadoop基础知识学习.ppt

下载文档 降价啦

18
0
约6.15千字
约 21页
2017-07-03 发布于湖北
举报
版权申诉
保障服务

hadoop基础知识学习.ppt

1、本文档共21页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

hadoop基础知识学习概要1

Hadoop基础学习 ■ Hadoop简介及其家族成员 ■ Hadoop体系结构原理 ■ Hadoop相关技术详细介绍 1.1 Hadoop简介简介及其家族成员 Hadoop——一个分布式系统基础架构名字的由来“这个名字是我孩子给一个棕黄色的大象玩具命名的。” Apache基金会旗下的开源项目是一个能够对大量数据进行分布式处理的软件框架其核心是Hadoop Distributed File System（HDFS）和MapReduce并行计算框架它可以轻松的利用比较廉价的硬件计算机资源搭建自己的分布式计算平台目前主要应用于互联网企业，用于数据分析、机器学习、数据挖掘 1.2 Hadoop家族成员简介-1及其家族成员家族成员 Core也是Common，为Hadoop其它子项目提供常用工具，主要包括FileSystem、RPC和串行化库。 Avro用于数据序列化的系统。 MapReduce是一种编程模型，用于大数据集的并行计算，可以方便编程人员在不了解分布式并行编程的情况下也可以将自己的程序运行在分布式系统上。 HDSF具有高容错性的，通过流的方式访问文件系统中的数据。该系统由数百上千个存储文件的服务器组成。 Chukwa开源的数据收集系统，用于显示、监视和分析数据结果。 Hbase是一个分布式的面向列存储的数据库，与bigtable使用相同的数据模型，一个数据行拥有一个可以选择的键和任意多列，主要用于随机访问和实时读写大数据。 1.2 Hadoop家族成员简介-2及其家族成员 1.2 Hadoop家族成员简介-3及其家族成员 Hive建立在Hadoop基础上的数据仓库，支持类似传统SQL的查询语言，提供ETL工具、数据存储管理和大型数据的查询、分析能力。 Pig最大的作用就是对mapreduce算法(框架)实现了一套shell脚本，类似我们通常熟悉的SQL语句，在Pig中称之为Pig Latin，在这套脚本中我们可以对加载出来的数据进行排序、过滤、求和、分组(group by)、关联(Joining)，Pig也可以由用户自定义一些函数对数据集进行操作。 ZooKeeper是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。 ■ Hadoop简介及其家族成员 ■ Hadoop体系结构原理 ■ Hadoop相关技术详细介绍 2.1 Hadoop体系结构原理-角色组成-1简介及其家族成员 Hadoop使用主/从（Master/Slave）架构，主要角色有NameNode，DataNode，JobTracker，TaskTracker组成。在Master节点的服务器中会执行两套程序：一个是负责安排MapReduce运算层任务的JobTracker，以及负责管理HDFS数据层的 NameNode程序。而在Worker节点的服务器中也有两套程序，接受JobTracker指挥，负责执行运算层任务的是TaskTracker程序，与NameNode对应的则是DataNode程序，负责执行数据读写操作以及执行NameNode的副本策略。 1、NameNode ：是HDFS的守护程序，负责记录文件是如何分割成数据块的，以及这些数据块被存储到哪些数据节点上。它的功能是对内存及I/O进行集中管理。 2、DataNode：集群中每个从服务器都运行一个DataNode后台程序，后台程序负责把HDFS数据块读写到本地文件系统。需要读写数据时，由NameNode告诉客户端去哪个DataNode进行具体的读写操作。 3、Secondary NameNode：是一个用来监控HDFS状态的辅助后台程序，如果NameNode发生问题，可以使用Secondary NameNode作为备用的NameNode。 4、JobTracker：后台程序用来连接应用程序与Hadoop，用户应用提交到集群后，由JobTracker决定哪个文件处理哪个task执行，一旦某个task失败，JobTracker会自动开启这个task。 5、TaskTracker：负责存储数据的DataNode相结合，位于从节点，负责各自的task。 2.1 Hadoop体系结构原理-角色组成-2简介及其家族成员 2.2 Hadoop体系结构原理- HDFS体系结构简介及其家族成员 2.2 Hadoop体系结构- HDFS处理流程-1介及其家族成员读文件过程 1）客户端(client)用FileSystem的open()函数打开文件。 2）DistributedFileSystem用RPC调