hadop总结.docxVIP

下载本文档

5
0
约8.65千字
约 14页
2017-11-20 发布于江苏
举报
版权申诉

hadop总结.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

hadop总结

Hadoop 概念： Hadoop是一个能够对大量数据进行分布式处理的软件框架！ Hadoop的特点： 1. 可靠性（Reliable）：hadoop能自动地维护数据的多份副本，并且在任务失败后能自动地重新部署（redeploy）计算任务。 2. 高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行的（parallel）处理它们，这使得处理非常的快速。 3.扩容能力（Scalable）：能可靠的（reliably）存储和处理千兆字节（PB）数据。 4. 成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。 {简单来说： 1.可靠性 ?（体现在它维护多个工作数据的副本，确保节点宕掉了重新进行分布式处理） 2.高效性（体现在它通过并行（计算机同时执2个或者多个处理机的一种计算方法）的方式处理数据，从而加快了数据处理速度） 3.可伸缩性（能处理PB级别的数据量） 4.廉价性 ?（它使用了社区服务器，因此它的成本很低，任何人都可以去用） } 它实现了一个分布式文件系统，简称之为HDFS 以真实的电信详单分析程序为主线，讲解Hadoop,Hbase,Hive在大数据处理的应用场景与过程。通过此课程，你能掌握Hadoop基本知识，进行Hadoop的HDFS和MapReduce应用开发，搭建Hadoop集群。掌握Hbase基本知识，搭建Hbase集群，Hbase的基本操作掌握数据仓库基本知识，用Hive建立数据仓库，并进行多维分析 Hadoop核心项目：HDFS（用于存储）和MapReduce（用于计算） Hdfs:分布式文件系统概念： Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。内部机制就是将一个文件分割成一个或多个块（一个block块:64M），这些块被存储在一组数据节点中 1.Hdfs的架构主从结构主节点，只有一个: namenode 从节点，有很多个: datanodes namenode负责：接收用户操作请求维护文件系统的目录结构管理文件与block之间关系，block与datanode之间关系 datanode负责：存储文件文件被分成block存储在磁盘上为保证数据安全，文件会有多个副本 Namenode/DataNode/SecondaryNameNode 分别的作用 Namenode包括：（hdfs-site.xml的.dir属性） fsimage:元数据镜像文件。存储某一时段NameNode内存元数据信息。 edits:操作日志文件。 fstime:保存最近一次checkpoint的时间以上这些文件是保存在linux的文件系统中。 DataNode包括：（hdfs-site.xml的dfs.replication属性）提供真实文件数据的存储服务。文件块（block）：最基本的存储单位。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。HDFS默认Block大小是64MB，以一个256MB文件，共有256/64=4个Block. 不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储空间 Replication。多复本。默认是三个 SecondaryNameNode包括：（hdfs-site.xml的dfs.replication属性） HA的一个解决方案。但不支持热备。配置即可 (HA 集群（High Availability, 高可用性集群）是集群中较常见的一种，当硬件或软件系统发生故障时，运行在该集群系统上的数据不易丢失，而且能在尽可能短的时间内恢复正常运行。) 执行过程：从NameNode上下载元数据信息（fsimage,edits），然后把二者合并，生成新的fsimage，在本地保存，并将其推送到NameNode，同时重置NameNode的edits. 默认在安装在NameNode节点上，但这样...不安全！ 1.***NodeNode对DataNode的心跳和块报告的管理 namenode节点负责处理所有的块复制相关的决策。它周期性地接受集群中数据节点的心跳和块报告。一个心跳的到达表示这个数据节点是正常的。一个块报告包括该数据节点上所有块的列表。 2.***HDFS中文件副本放置策略：复制副本数为3（一般情况下） HDFS的副本放置策略是：第一个副本放在本地节点第二个副本放到本地机架上的另外一个节点第三个副本放到不同机架上的节点。这种方式的优势：减少了机架