第 2 章 大象的肚子—HDFS 文件系统详解.pdfVIP

第 2 章 大象的肚子—HDFS 文件系统详解.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 2 章 大象的肚子—HDFS 文件系统详解

第2 章 大象的肚子—HDFS 文件系统详解 从本章开始,我们将要系统学习Hadoop 的知识,如果如前所述,将整个Hadoop 比作 一头大象的话,那么首先要学习大象的肚子,Hadoop 文件存储系统-HDFS。 2.1 HDFS 基础详解 为了解决诸如此类的问题,Hadoop 为我们提供了一套完整的具有开创性的数据存储方 案。主要依靠目前仍在不断提升,并且还有很大提升空间的的宽带链接资源协同大量的分布 存储磁盘空间来构建一个系统存储网络。HDFS 是一个能够面向大规模数据使用的,可进行 扩展的文件存储与传递系统。 传统的文件处理一般是在专门的服务器或者个人工作站中进行,即使可以对部分大规模 文件数据进行存储,但是对其进行处理却是一个难以解决的问题,因为其处理计算往往涉及 到很多方面,例如对若干图像资料进行处理,很多图像资料本身就是大型文件,而在读取时 需要耗费大量的资源,且在处理时又要求较为高效的 CPU、高容量内存、硬盘存储值也要 求较高。而其中一个处理不当则有可能会成为计算效率的短板。并且使用专门配置的服务器 做为存储和计算设备的话,对设备的稳定性要求非常高,因为单独的某一件硬件设备就是存 储的全部资源,长久使用的话,谁又能保证能够一直平稳安全的运行下去呢? 相对对传统的文件存储方式,HDFS 继承了一部分传统文件存储格式的优点,例如对性 能的压榨、要求高可扩展性,稳定性等一系列指标体系、但是在此传统优点基础上,HDFS 还尝试并使用了一些从未有过的探索,使用一种具有开创性的设计思路。 2.1.1 HDFS 性能详解 HDFS 是设计为用于运行在大量普通商用机集群上的一整套文件存储系统。这里的商用 机指的是一般性质商用机,而不包括特定专门给为某些特定服务定制的的服务器。究其原因 是因为使用大量的普通商用机可以为企业节省商用成本,而无需购置特别的服务器,也节省 了大量的后期维护费用。但是我们也要注意到,对于普通商用机来说,单独使用中出现问题 的概率不大,但是一旦被集群以后进行集群服务,出现问题的概率还是不低。因此在 HDFS 在设计之初,就根据此种需求设计出一种优雅的对硬件错误处理的方式,例如持续硬件监控, 灾难恢复,错误预处理,数据备份等,具体我们在后面会进行介绍。而且通过此种处理,大 大降低了硬件之间的耦合关系,给大规模集群的配置创建一个更加友好和便于操作的环境。 小提示:我们这里所说的商用机,更多意义上是指普通的商用服务器,而非个人 PC, 虽然个人PC 在一定程度上也能够作为节点接入Hadoop 进行数据存储和处理,但是其在稳 定性,硬盘健壮性等方面还是较商用服务器差的多。不推荐的是那种高性能商用服务器,通 俗的说就是那些单价在十万美元以上的服务器。在这里容易造成误解。 其次对于HDFS 存储的对象,也就是数据的存储,HDFS 开创性地设计出一套文件存储方 式。我们知道,HDFS 天生是为大规模数据存储与计算服务的,而对大规模数据的处理目前 还有没比较稳妥的解决方案。HDFS 将将要存储的大文件进行分割,分割到既定的存储块 (Block) 中进行了存储,并通过本地设定的任务节点进行预处理,从而解决对大文件存储与计 算的需求。在实际工作中,除了某些尺寸较大的文件要求进行存储及计算,更多时候是会产 生并存储无数的小尺寸文件。而对于小尺寸文件的处理,HDFS 没有要求使用者进行特殊的 优化,也就是说可以通过普通的编程与压缩方式进行解决。对于大部分的文件来说,一旦文 件生成完毕,更多的是对文件进行读取而非频繁的修改。HDFS 对于普通文件的读取操作来 说,一般情况下主要分成两种。大规模的持续性读取与小型化随机读取。针对这两种读取方 式,HFDS 分别采取了不同的对应策略。对于大规模的数据读取,HDFS 采用的是在存储时进 行优化,也就是说在文件进入HDFS 系统时候,就对较大体积的文件存储时就采用集中式存 储的方式,使得未来的读取能够在一个文件一个连续的区域进行,从而节省寻址及复制时间。 而对于小数据的读取,HDFS 更多的做法时在把小规模的随机读取操作合并并对读取顺序进 行排序,这样可以在一定程度上实现按序读取,提高读取效率。因此可以说,HDFS 更多是 考虑到数据读取的批处理,而不是对单独命令的执行。 对于保证协调性来说,HDFS 使用多种设计稳固与提高了HDFS 的系统灵活性,例如使用 多个文件API 与应用程序协同性工作模式以及放松对一致

文档评论(0)

zsmfjh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档