- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop的MapReduce框架研究报告黄飞
基于Hadoop的Map/Reduce框架研究报告 黄飞 Outline 1. 模型介绍: Hadoop 简介 MapReduce 计算模型 2.实例分析 WordCount Hadoop 简介 Hadoop 简介 Hadoop 是一个开源分布式计算平台,它实现了 Map/Reduce 计算模型。借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算。 Hadoop 简介 分布式并行编程概念 基于集群的分布式并行编程能够让软件与数据同时运行在连成一个网络的许多台计算机上,由此获得海量计算能力。 Hadoop 简介 迎接编程方式的变革 1.摩尔定律正在失效 根据摩尔定律,约每隔18个月,CPU性能会提高一倍。然而,由于晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在 2005 年左右开始失效。 2.分布式并行编程 互联网时代的到来,将使软件编程方式发生重大变革,基于大规模计算机集群的分布式并行编程是将来软件性能提升的主要途径。 Hadoop 简介 1.Google Hadoop 2.Hadoop的未来 Map/Reduce 计算模型 Map/Reduce 计算模型 Map/Reduce 是 Hadoop的核心计算模型,它将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数,Map 和 Reduce, 这是一个令人惊讶的简单却又威力巨大的模型。 Map/Reduce 计算模型 Map/Reduce计算流程 Map/Reduce 计算模型 程序框架: Class MR{ Class Map …{ } Class Reduce …{ } main(){ JobConf conf = new JobConf(“MR.class”); conf.setInputPath(“the_path_of_HDFS ”); conf.setMapperClass(Map.class); conf.setReduceClass(Reduce.class); JobClient.runJob(conf); }} Map/Reduce 计算模型 Map 和 Reduce 函数 Map/Reduce 计算模型 基于 MapReduce 计算模型编写分布式并行程序非常简单,程序员的主要编码工作就是实现 Map 和 Reduce函数。 其它的并行编程中的种种复杂问题,如分布式存储,工作调度,负载平衡,容错处理,网络通信等,均由 MapReduce 框架(比如 Hadoop )负责处理。 Map/Reduce 计算模型 并行计算的实现: 数据分布存储 分布式并行计算 本地计算 数据分布存储: Map/Reduce 计算模型 分布式并行计算: Map/Reduce 计算模型 本地计算: 网络带宽为分布计算瓶颈,“本地计算”是最有效的一种节约网络带宽的手段,业界把这形容为“移动计算比移动数据更经济”。 实例分析:WordCount 实例分析:WordCount 1.实现Map类 这个类实现 Mapper 接口中的 map 方法,输入参数中的 value 是文本文件中的一行,利用StringTokenizer 将这个字符串拆成单词,然后将输出结果 单词,1 写入到org.apache.hadoop.mapred.OutputCollector 中。 实例分析:WordCount 实例分析:WordCount 实例分析:WordCount 实例分析:WordCount 实例分析:WordCount 2.实现 Reduce 类: 这个类实现 Reducer 接口中的 reduce 方法, 输入参数中的 key, values 是由 Map 任务输出的中间结果,values 是一个 Iterator, 遍历这个 Iterator, 就可以得到属于同一个 key 的所有 value. 此处,key是一个单词,value 是词频。只需要将所有的 value 相加,就可以得到这个单词的总的出现次数。 实例分析:WordCount 实例分析:WordCount 3.运行 Job: 在 Hadoop 中一次计算任务称之为一个 job, 可以通过一个 JobConf 对象设置如何运行这个 job。然后将 JobConf 对象作为参数,调用 JobClient 的 runJob, 开始执行这个计算任务。 实例分析:WordCount 实例分析:WordCount 实验结果 谢谢陆老师的指导~-~刘兵兵、陈威同学的帮助~-~ 谢谢 计算模型的核心是map和reduce 两个函数,这两个函数由用户负责实现,功
您可能关注的文档
- 区域经济学-南京大学研究生院.doc
- 区域经济协调与产业结构优化.ppt
- 区域网路-即时暨内嵌式系统实验室RealTime&EmbeddedSystemLab.ppt
- 区域试验的概念、任务及组织体系.ppt
- 区域经济融合与国际基础设施合作新机遇.ppt.ppt
- 医疗保障的理论基础.ppt.ppt
- 医学物理学放射性核素成像.ppt
- 医疗广告相关规范-社团法人中华民国医事检验师公会全国联合会.ppt
- 十七岁,是个不需等待的年龄。.ppt
- 十八届三中全会精神解读PPT-浙江大学人文学部.ppt
- 基于MATLAB的QPSK仿真设计与实现一.前言1.1QPSK系统的应用背景.doc
- 基于Multisim10的电子电路可靠性研究雷跃谭永红摘要利用Multisim.doc
- 基于SVM的楼宇室内主用户信号频谱感知研究-大连理工大学学报.doc
- 基于XBW技术的汽车无油化制动系统研究-机械设计杂志社.doc
- 基于东风本田CR-V的底盘介绍-PPTOK.ppt
- 基于多模态分子影像技术的乳腺癌精准医疗-汕头大学医学院附属肿瘤医院.ppt
- 基于圆形超声阵列传感器的局放定位系统开发与实验研究-电测与仪表.doc
- 基于并联机构的3D打印机-山东大学口腔医学院.doc
- 基于有限元强度折减法的土钉支护结构稳定性分析-同济大学学报.doc
- 基于电动机的工艺程序分析.doc
最近下载
- 2022年宜春职业技术学院招聘笔试真题含答案详解.docx VIP
- 印花税法解读课件PPT.pptx VIP
- 信息安全培训课件银行.ppt VIP
- 2025年高速公路收费员考试题(附答案+解析).docx VIP
- 抗高血压药物的分类应用抗高血压药物的分类及应用.doc VIP
- 2024年宜春职业技术学院招聘笔试真题含答案详解.docx VIP
- 光伏发电能源项目.docx VIP
- 重症肌无力护理业务学习.pptx VIP
- Razer雷蛇雷蛇幻影战狼 V3 竞技版 8K PC专用 RZ06- 05550 支持和常见问题解答 用户指南 (简体中文)说明书用户手册.pdf
- 塑料件结构的设计规范.ppt VIP
有哪些信誉好的足球投注网站
文档评论(0)