- 1、本文档共34页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Hadoop云计算技术介绍
作者:zbwd中国云计算论坛Email:xjtuzb@
GTCRC@XJTU
序言
Hadoop是一个开源的分布式并行计算平台,它主要由MapReduce的算法执行和
一个分布式的文件系统等两部分组成。
Hadoop起源于DougCutting大牛领导开发的Nutch有哪些信誉好的足球投注网站引擎项目的子项目。现在是Apache软件基金会管理的开源项目。
本文主要介绍Hadoop及相关技术,从Hadoop的起源开始讲述,主要涵盖了
MapReduce算法思想,基本框架,运行流程和编程粒度等内容,以期给入门者提供一个关于Hadoop的技术简介和研究参考。关于Hadoop的安装指南和编程范例并不在本文叙述范围内,有需要者请参考其它资料。
因笔者水平实在太有限了,文中如有疏漏错误请不吝指出,万分感谢。
本人资料多数来源于互联网的技术文档,附录列出引文列表,特此致谢原文作者。最后,发自内心、无与伦比地感谢Google、Apache软件基金会和DougCutting带给我们如此简约、优雅的技术。
OK,让我们开始吧!去寻找那神奇的小飞象。
Hadoop云计算技术介绍第2页共17页
目录
●引言——Hadoop从何而来
●算法思想——Hadoop是怎么思考的
●基本架构——Hadoop是如何构成的
●运行流程—Hadoop是如何工作的
●任务粒度——Hadoop是如何并行的
●参考文献
Hadoop云计算技术介绍第3页共17页
1.引信—Hadoop从何而来
自从Google工程师JeffreyDean提出MapReduce编程思想,MapReduce便在Google的各种Web应用中释放着魔力。然而,也许出于技术必威体育官网网址的目的,Google公司并没有透露其MapReduce的实现细节。
幸运的是,DougCutting开发的Hadoop作为MapReduce开源实现,让
MapReduce这么平易近人地走到了我们面前。2006年1月,DougCutting因其在开源项目Nutch和Lucene的卓越表现受邀加入Yahoo公司,专职在Hadoop项目上进行开发。现在,DougCutting大牛已经加盟Cloudera(一家从事Hadoop
产品商业化及技术支持的公司)。
注:Hadoop名称的来历——Hadoop原本是小DougCutting的大象玩具。
作为GoogleMapReduce技术的开源实现,Hadoop理所当然地借鉴了Google的GoogleFileSystem文件系统、MapReduce并行算法以及BigTable。因此,
Hadoop也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。当然,这一切都是在可靠、高效、可扩展的基础上。Hadoop的可靠性——因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。Hadoop的高效性——在MapReduce
Hadoop云计算技术介绍第4页共17页
的思想下,Hadoop是并行工作的,以加快任务处理速度。Hadoop的可扩展—-依赖于部署Hadoop软件框架计算集群的规模,Hadoop的运算是可扩展的,具有处理PB级数据的能力。
虽然Hadoop自身由Java语言开发,但它除了使用Java语言进行编程外,同样支持多种编程语言,如C++。
Hadoop的长期目标是提供世界级的分布式计算工具,也是对下一代业务(如有哪些信誉好的足球投注网站结果分析等)提供支持的Web扩展(web-scale)服务。
2.算法思想—Hadoop是怎么思考的
MapReduce主要反映了映射和规约两个概念,分别完成映射操作和规约操作。映射操作按照需求操作独立元素组里面的每个元素,这个操作是独立的,然后新建一个元素组保存刚生成的中间结果。因为元素组之间是独立的,所以映射操作基本上是高度并行的。规约操作对一个元素组的元素进行合适的归并。虽然有可能规约操作不如映射操作并行度那么高,但是求得一个简单答案,大规模的运行仍然可能相对独立,所以规约操作也有高度并行的可能。
Hadoop云计算技术介绍第5页共17页
GeneralMapReduceAlgorithm
Input
InputFile
Map(split)Functio
您可能关注的文档
- hadoop开发者第三期-大数据文档资料.docx
- hbase-._程式設計-大数据文档资料.docx
- HBase-大数据文档资料.docx
- HBase分布式数据库-大数据文档资料.docx
- Hive编程入门-weibo-大数据文档资料.docx
- hive调优-大数据文档资料.docx
- Hive高级编程-weibo-大数据文档资料.docx
- hive实现原理-weibo-大数据文档资料.docx
- Hive数据仓库-大数据文档资料.docx
- melnik_VLDB-大数据文档资料.docx
- 2025年成都市玩偶生产荧光涂鸦互动玩偶开发可行性研究报告.docx
- 2025年成都市海绵生产用于体育馆室外运动场地透水改造可行性研究报告.docx
- 2025年天津市体操鞋企业团建运动应用报告.docx
- 2025年上海市溶洞极限运动(速降)场地开发可行性研究报告.docx
- 2025年上海市涵洞工程施工技术应用可行性研究报告.docx
- 2025年上海市体育场馆设施扎带安全防护可行性研究报告.docx
- 2025年上海市牦牛育肥产业园区建设可行性研究报告.docx
- 2025年旅拍宠物陪伴拍摄项目可行性研究报告.docx
- 2025年上海市进口食品节庆主题快闪店可行性研究报告.docx
- 2025年上海市洗选厂尾矿综合利用产业化可行性研究报告.docx
文档评论(0)