hadop总结.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
hadop总结

Hadoop 概念: Hadoop是一个能够对大量数据进行分布式处理的软件框架! Hadoop的特点: 1. 可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。 2. 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行的(parallel)处理它们,这使得处理非常的快速。 3.扩容能力(Scalable):能可靠的(reliably)存储和处理千兆字节(PB)数据。 4. 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 {简单来说: 1.可靠性 ?(体现在它维护多个工作数据的副本,确保节点宕掉了重新进行分布式处理) 2.高效性 (体现在它通过并行(计算机同时执2个或者多个处理机的一种计算方法)的方式处理数据,从而加快了数据处理速度) 3.可伸缩性 (能处理PB级别的数据量) 4.廉价性 ?(它使用了社区服务器,因此它的成本很低,任何人都可以去用) } 它实现了一个分布式文件系统,简称之为HDFS 以真实的电信详单分析程序为主线,讲解Hadoop,Hbase,Hive在大数据处理的应用场景与过程。 通过此课程,你能 掌握Hadoop基本知识,进行Hadoop的HDFS和MapReduce应用开发,搭建Hadoop集群。 掌握Hbase基本知识,搭建Hbase集群,Hbase的基本操作 掌握数据仓库基本知识,用Hive建立数据仓库,并进行多维分析 Hadoop核心项目:HDFS(用于存储)和MapReduce(用于计算) Hdfs:分布式文件系统 概念: Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。 内部机制就是将一个文件分割成一个或多个块(一个block块:64M),这些块被存储在一组数据节点中 1.Hdfs的架构 主从结构 主节点,只有一个: namenode 从节点,有很多个: datanodes namenode负责: 接收用户操作请求 维护文件系统的目录结构 管理文件与block之间关系,block与datanode之间关系 datanode负责: 存储文件 文件被分成block存储在磁盘上 为保证数据安全,文件会有多个副本 Namenode/DataNode/SecondaryNameNode 分别的作用 Namenode包括:(hdfs-site.xml的.dir属性) fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。 edits:操作日志文件。 fstime:保存最近一次checkpoint的时间 以上这些文件是保存在linux的文件系统中。 DataNode包括:(hdfs-site.xml的dfs.replication属性) 提供真实文件数据的存储服务。 文件块(block):最基本的存储单位。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。HDFS默认Block大小是64MB,以一个256MB文件,共有256/64=4个Block. 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间 Replication。多复本。默认是三个 SecondaryNameNode包括:(hdfs-site.xml的dfs.replication属性) HA的一个解决方案。但不支持热备。配置即可 (HA 集群(High Availability, 高可用性集群)是集群中较常见的一种,当硬件或软件系统发生故障时,运行在该集群系统上的数据不易丢失,而且能在尽可能短的时间内恢复正常运行。) 执行过程:从NameNode上下载元数据信息(fsimage,edits),然后把二者合并,生成新的fsimage,在本地保存,并将其推送到NameNode,同时重置NameNode的edits. 默认在安装在NameNode节点上,但这样...不安全! 1.***NodeNode对DataNode的心跳和块报告的管理 namenode节点负责处理所有的块复制相关的决策。 它周期性地接受集群中数据节点的心跳和块报告。 一个心跳的到达表示这个数据节点是正常的。 一个块报告包括该数据节点上所有块的列表。 2.***HDFS中文件副本放置策略: 复制副本数为3(一般情况下) HDFS的副本放置策略是: 第一个副本放在本地节点 第二个副本放到本地机架上的另外一个节点 第三个副本放到不同机架上的节点。 这种方式的优势:减少了机架

文档评论(0)

ipad0d + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档