大数据与分布式计算.pptVIP

下载本文档

26
0
约5.27千字
约 65页
2019-08-16 发布于安徽
举报
版权申诉

大数据与分布式计算.ppt

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据与分布式计算 HDFS Hadoop Distributed File System 1990年，一个普通的硬盘驱动器可存储1370 MB的数据并拥有4.4 MB/s的传输速度，所以，只需五分钟的时间就可以读取整个磁盘的数据。 20年过去了，1 TB级别的磁盘驱动器是很正常的，但是数据传输的速度却在100 MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。从一个驱动器上读取所有的数据需要很长的时间，写甚至更慢。如何解决？磁盘损坏数据丢失怎么办？如果需要存储计算1000T数据怎么办？常用RAID技术 RAID类型访问速度数据可靠性磁盘利用率 RAID0 很快很低 100% RAID1 很慢很高 50% RAID10 中等很高 50% RAID5 较快较高（N-1）/N RAID6 较快较（RAID5）高（N-2）/N HDFS系统架构什么是HDFS? Hadoop Distributed File System Hadoop Distributed File System (HDFS) is the primary storage system used by Hadoop applications. HDFS creates multiple replicas of data blocks and distributes them on compute nodes throughout a cluster to enable reliable, extremely rapid computations. HDFS设计目标 HDFS以流式数据访问模式存储超大文件，运行于商用硬件集群上。超大文件流式数据访问一次写入多次读取商用硬件不适合HDFS的场景低延迟的数据访问大量小文件超过NameNode的处理能力多用户任意写入修改文件 HDFS为了做到可靠性（reliability）创建了多份数据块（data blocks）的复制（replicas），并将它们放置在服务器群的计算节点中（compute nodes），MapReduce就可以在它们所在的节点上处理这些数据了。设计目标假设：节点失效是常态理想： 1. 任何一个节点失效，不影响HDFS服务 2. HDFS可以自动完成副本的复制 HDFS主要组件的功能 NameNode DataNode 存储元数据存储文件内容元数据保存在内存中文件内容保存在磁盘保存文件,block ，datanode之间的映射关系维护了block id到datanode本地文件的映射关系文件文件切分成块（默认大小64M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3） NameNode是主节点，存储文件的元数据如文件名，文件目录结构，文件属性（生成时间,副本数,文件权限），以及每个文件的块列表以及块所在的DataNode等等 DataNode在本地文件系统存储文件块数据，以及块数据的校验和可以创建、删除、移动或重命名文件，当文件创建、写入和关闭之后不能修改文件内容。分而治之（Divide and Conquer）分而治之（Divide and Conquer）分而治之（Divide and Conquer） MapReduce MapReduce：大规模数据处理处理海量数据（1TB）上百/上千CPU实现并行处理简单地实现以上目的移动计算比移动数据更划算分而治之（Divide and Conquer） MapReduce特性自动实现分布式并行计算容错提供状态监控工具模型抽象简洁，程序员易用 MapReduce 它由称为map和reduce的两部分用户程序组成，然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务，然后再对结果进行归并。 WordCount MapReduce MapReduce 物理上 MapReduce Hive SQL Sub-queries in from clause Equi-joins Inner Left, Right, full Outer Multi-table Insert Multi-group-by Extensibility Pluggable Map-reduce scripts Pluggable User Defined Functions Pluggable User Defined Types Complex object types: List of Maps Pluggable Data F