- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
写MapReduce程序的步骤: 1.把问题转化为MapReduce模型 2.设置运行的参数 3.写map类 4.写reduce类 例子:统计单词个数 mapreduce篇 开发hadoop依赖的jar和自带的example 到/ 下载hadoop-0.20.2.tar.gz,目前必威体育精装版版为1.0.3。下载完后解压文件,y有hadoop-0.20.2-core.jar, hadoop-0.20.2-examples.jar, hadoop-0.20.2-core.jar :hadoop的核心类库 Hadoop所依赖的jar: hadoop所依赖的jar在lib目录下面。 Hadoop 自带的一些案例分析: hadoop-0.20.2-examples.jar是hadoop-0.20.2自带的一些案例。介绍如下: 1) aggregatewordcount 计算输入文件中文字个数的基于聚合的MapReduce程序。 2) aggregatewordhist 生成输入文件中文字个数的统计图的基于聚合的MapReduce程序。 3) grep 计算输入文件中匹配正则表达式的文字个数的MapReduce程序。 4) join 合并排序的平均分割的数据集的作业。 5)pentomino 解决五格拼版问题的分块分层的MapReduce程序。 Hadoop自带的examples.jar介绍 6)pi 使用蒙地卡罗法计算PI的MapReduce程序。 7)Randomtextwriter 在一个节点上写10G随机文本的MapReduce程序。 8)randomwriter 在每个节点上写10G随机数据的MapReduce程序。 9) sleep 在每个Map和Reduce作业中休憩的程序。 10)sort 排序随机写入器生成的数据的MapReduce程序。 11)sudoku 一个九宫格游戏的解决方案。 12)wordcount 在输入文件中统计文字个数的统计器。 实例 My name is liu gang What is your name My 1 name 2 is 2 What 1 your 1 liu 1 gang 1 MapReduce模型 1.Map端 一行行读文件,程序转化为中间Key/Value. My name is liu gang -My 1,name 1, is 1, liu 1, gang 1 What is your name -What 1, is 1, your 1 name 1 2.Reduce端 相同的key肯定会在一起。经过Reduce方法处理后, 形成最终的key/Value. name 1,name 1-name 2; 运行步骤 1)打成jar包。 2)创建一个word.txt文件 3)把word.txt文件传到HDFS上面 hadoop fs –copyFromLocal localsrc HDFS 4)执行hadoop jar jar名 完整的类名 5)查看执行结果 hadoop fs –text /path MapReduce执行流程 MapReduce基本流程 JobTracker(JT)和TaskTracker(TT)简介 再论JobTracker(JT)和TaskTracker(TT) JobTracker:协作作业的运行 taskTracker:运行作业划分后的任务 Mapreduce原理 1)一个文件file.txt 2)存储file.txt文件 3) 统计file.txt文件里面”Refund”个数 JobTracker失败 1)JobTracker失败在所有的失败中是最严重的一种。 2)hadoop没有处理jobtracker失败的机制。--它是一个单点故障。 3)在未来的新版本中可能可以运行多个JobTracker。 4)可以使用ZooKeeper来协作JobTracker。 TaskTracker失败 1)一个TaskTracker由于崩溃或运行过于缓慢而失败,它会向JobTracker发送“心跳”。 2)如果有未完成的作业,JobTracker会重新把这些任务分配到其他的TaskTracker上面运行。 3)即使TaskTracker没有失败也可以被JobTracker列入黑名单。 Hadoop Job Scheduler 1)Hadoop默认的调度器是基于队列的FIFO调度器。 所有用户的作业都被提交到一个队列中,然后由JobTracker先按照作业的优先级高低,再按照作业提交时间的先后顺序选
您可能关注的文档
最近下载
- 《北京市房屋租赁合同自行成交版》.doc VIP
- 机修工考试题库及答案.doc VIP
- 八年级数学趣味数学知识竞赛课件(比赛用) (共51张PPT).pptx VIP
- 机修工培训考试题库.pdf VIP
- 《古建筑木结构维护与加固技术标准》(GB_T 50165—2020)修订解析.pdf VIP
- 七年级数学知识竞赛课件 (共42张PPT).pptx VIP
- 八年级数学趣味数学知识竞赛课件(比赛用) (共51张PPT).pptx VIP
- 七年级数学趣味数学竞赛比赛用课件 (共48张PPT).pptx VIP
- 《少盐限油健康饮食》课件.ppt VIP
- 2022年初中数学趣味数学竞赛课件(共43张ppt).pptx VIP
文档评论(0)