基于hadoop的分布式存储平台的搭建与验证毕业设计.doc

基于hadoop的分布式存储平台的搭建与验证毕业设计.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
 PAGE \* MERGEFORMAT 101 (此文档为word格式,下载后您可任意编辑修改!) 毕业设计(论文) 中文题目:基于hadoop的分布式存储平台的搭建与验证 英文题目: Setuping and verification distributed storage platform based on the principle of Google file system developed and implemented by the great concern of the IT industry, and widely used. The thesis aims to set up Hadoop multi-node distributed storage platform and analyze its security mechanisms to be implemented on a separate computer. The thesis first introduces the research background knowledge of the subject, and detailed description of the study and the principle of the of the platform, and its performance were verified, further security mechanisms. First the industry generally accepted user requirements and the architecture of the distributed file system model are introduced。 Then for HDFS architecture to achieve the Hadoop security mechanisms and the corresponding security policy. In addition,the advantages of HDFS in the field of cloud computing applications and the security problem are summarized. At last thedesign and application recommendations are presented. The experimental platform installed virtualbox ubuntu10.10 of application is a the this experiment platform. Keywords: ,HDFS, MapReduce,ZooKeeper,Avro,Chukwa,HBase,Hive,Mahout,Pig 在内的10 个子项目。其中,HDFS 和MapReduce 是这个项目的核心。要使用HADOOP 构建自己的云计算服务平台,必须深刻的理解和掌握HDFS 和MapReduce。 其实,作为一个开源项目,HADOOP 主要产生于Google 分布式文件系统GFS以及Google 的MapReduce 编程模式[2]。 2.2 HDFS(HADOOP 分布式文件系统)机制 HDFS 是一个运行在普通的组件集群上的分布式文件系统,它是HADOOP 框架主要的存储系统。由于HADOOP 具有高数据吞吐量,并且实现了高度容错,因此具有很高的效能。本节将对HDFS 的核心机制和架构作深入的研究和分析。研究内容和观点主要来自Hadoop 的官方站点。 2.2.1 前提和设计目标 ①硬件错误 硬件错误是常态而不是异常。HDFS 可能由成百上千的服务器所构成,每个服务器上存储着文件系统的部分数据。我们面对的现实是构成系统的组件数目是巨大的,而且任一组件都有可能失效,这意味着总是有一部分HDFS 的组件是不工作的。因此错误检测和快速、自动的恢复是HDFS 最核心的架构目标。 ②流式数据访问 运行在HDFS 上的应用和普通的应用不同,需要流式访问它们的数据集。HDFS的设计中更多的考虑到了数据批处理,而不是用户交互处理。比之数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。POSIX 标准设置的很多硬性约束对HDFS 应用系统不是必需的。为了提高数据的吞吐量,在一些关键方面对POSIX的语义做了一些修改。 ③大规模数据集 运行在HDFS 上的应用具有很大的数据集。HDFS 上的一个典型文件大小一般都在G 字节至T 字节。因此,HDFS 被调节以支持大文件存储。它应

文档评论(0)

chunyanf + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档