基于HDFS云技术信息资源整合研究.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于HDFS云技术信息资源整合研究

基于HDFS云技术信息资源整合研究   摘 要 随着互联网的飞速发展,人们对信息资源的需求也是日益剧增。于是云计算、云存储等云技术的出现,不断的提出各种新型的信息资源整合方案。其中基于Hadoop (HDFS)的分布式云计算/云存储节构的出现,有效的支撑了信息资源整合的不断优化,其关键所在是如何构建一个低成本、高效率、安全性高的分布式的信息资源整合方案。   关键词 HDFS;云计算;云存储;信息整合   中图分类号:TP333 文献标识码:A 文章编号:1671-7597(2013)18-0051-02   1 研究背景   面临当前社会信息资源的不断增长,海量数据资源也需要不断的整合,这已经成为当前信息资源整合界一个不争的事实。虽然信息资源整合存在的多种问题,比如:互联网信息资源分布不均、信息资源维护成本高、信息共享程度差和信息资源安全问题日益突出。这一系列的问题的解决方案都需要优先处理信息???源存储问题,这样才能有效、高效率的进行信息资源整合。目前在业界提出了云存储技术,就是解决这个问题的首选方案。   2 HDFS概念   HDFS:即Hadoop文件系统(Hadoop Distributed File System),它是被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。   HDFS与现有的文件系统相比,有很多相同的地方,但也尤其优势之处。如:在处理高容错性上,HDFS可以部署在硬件要求较低的基础之上;在处理高吞吐量的应用上,也是以流传输的方式来进行信息资源文件的访问。因此,各大公司都在进行着自己的HDFS产品的开发,比如:微软的“Windows Live Sky Drive”,谷歌公司的“Google Storage”,亚马逊的“Amazon”,百度的“百度云”,阿里巴巴的“阿里云”等。在众多的信息资源云技术产品中,HDFS技术可以不仅仅是运行在集群服务器上,还可以运行在普通的个人计算机集群上,不断的构架出一个稳定性强、高性能、安全性很高的HDFS系统。   3 基于HDFS存储的信息资源整合解决方案   3.1 HDFS存储系统设计思路   面对海量信息资源整合难题,整合数据的成本也不断的增加,数据方案安全性问题也尤为突出,因此根据市场的需要,借助云存储的新型工作模式来解决这个问题,结合云存储的各种优势,因此可以从以下几个方面进行分析和设计。   1)高效信息资源整合,可以将各类型的数据利用HDFS存储在不同数据节点上,当用户利用客户端进行访问信息资源时,就能得到高效的回复,而且还可以进行并发数据发送和回复。   2)降低大数据量存储的成本设计,通常大数量存储是有众多服务器集群来进行存储的,这样存储的成本会大大提高。那么利用HDFS来存储海量的信息资源就可以有个人计算机集群来完成,然后通过合理的配置,就可以构建出一个海量存储设备。   3)提高信息资源正本的安全性,传统的数据存储都是同一个文件保存在一台服务器上,这样当这个服务器出现故障后,文件在接受到请求时,就无法进行响应。而HDFS则是将同一个文件在不同的计算机集群中形成副本,从而提高文件的安全性。   3.2 系统功能设计方案   对于广大互联网用户来说,一个用户就是相当于云存储系统中的一个子用户。因此对于这样一个基于HDFS的云储存系统中,就要实现其用户能够自定义创建、管理、维护其信息资源。用户上传、下载或删除的信息资源,都可以通过系统进行。由于该系统是基于HDFS进行构建的,因此对于一个基本的HDFS由一个NameNode和N个DataNode组成,然后通过各种工具集合起来协同工作,然后由用户提交的各种请求。   NameNode是一个中心的服务器节点,主要是负责管理和维护文件系统的NameSpace和Client发送对文件的请求与访问。DataNode在计算机集群中会有多个存在,一般是一个节点存在一个,来负责管理管理其自身节点上他们附带的存储。对于系统内部,一个大文件可以分解成一个或者是多个块,这些块存储在DataNode集合中。NameNode执行文件系统的NameSpace相关操作。对于单一节点的NameNode来说大大的简化了系统的复杂度,NameSpace负责保管所有的HDFS元数据,因此在请求NameNode得到文件的位置后就不需要通过NameNode参与而直接从DataNode进行。为了提高Namenode的性能,所有文件的namespace数据都在内存中维护

您可能关注的文档

文档评论(0)

189****7685 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档