- 1、本文档共64页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
Hadoop技术原理与案例
HadoopTechnicalPrinciplesPractices主编:韩玉民郭丽副主编:王尧张文宁张炎峰缑西梅
6.1WordCount6.2最值6.3全排序6.4二次排序6.5MapReduce链6.6MapReduce数据合并6.7本章小结Hadoop案例开发分布式存储与计算基础第一篇第6章
Hadoop案例开发第6章
6.1WordCountWordCoun实例用于统计文本中每类单词的出现次数,输入为文本文件,输出为类似于“keyvalue”的形式,如“hello1”表示单词“hello”出现了1次。输入:文本文件,本例中需要统计的文本存放于“hdfs://01:9000/wc/input/”目录输出:以“keyvalue”形式输出,程序输出结果存储于“hdfs://192.168.100.101:9000/wc/output/”目录。
6.1WordCount处理逻辑:根据MapReduce编程思想,用户编写的MapReduce程序一般分为Mapper、Reducer和Driver三个组成部分。围绕本实例,创建本实例的Mapper类、Reducer类和Driver类,分别负责Map阶段的数据处理逻辑,Reduce阶段的数据处理逻辑,和任务提交运行等任务。
6.1WordCount1.WordCountMapper类WordCountMapper继承自Mapper类。MapReduce框架自动完成文件按行分割后,形成key,value对,key为MapReduce自动计算出的偏移量,value为本行的内容。如0,HelloWorld、12,ByeWorld。这些自动分割形成的键值对作为WordCountMapper类中map()方法的输入。在map()方法中对分割后的key,value进行处理,生成新的key,value对。处理流程为对每一行文字按照\t分隔符拆分为多个单词,并将单词出现的次数标记为1,形成key,value的形式,key为某个单词,value为1。如0,HelloWorld经过map方法处理后的结果为Hello,1、World,1。
6.1WordCount2.WordCountReducer类WordCountReducer类继承自Reducer类。WordCountReducer类接收Mapper端的输出结果key,value,并将key值相同的value值合并到一个list列表中。如Hello,1、World,1、Bye,1、World,1经过Reducer处理后的结果为Bye,list(1)、Hello,list(1)、Word,list(1,1)。基于上一步接收到的数据,reduce()方法对key相同的数据对进行汇总处理,得到新的key,value,并作为WordCount程序的输出结果,存入HDFS。如Bye,list(1)、Hello,list(1)、Word,list(1,1)经过reduce方法处理后的输出结果为Bye,1、Hello,1、Word,2。
6.1WordCount3.WordCount类程序运行的主类,通过获取配置信息、创建Job对象、指定Job数据类型、指定输入及输出目录等设置程序运行信息,提交Job运行。本实例的参考代码如下。publicclassWordCount{publicstaticvoidmain(String[]args)throwsException{1.获取配置信息Configurationconf=newConfiguration();2.设置额外的配置//2.1Permissiondenied:user=zhang,access=WRITE,inode=/wc:root:supergroup:drwxr-xr-x//没用:conf.set(HADOOP_USER_NAME,root);//有用:设置系统的环境变量System.setProperty(HADOOP_USER_NAME,root);FileSystemfs=FileSystem.get(newURI(hdfs://01:9000),conf,root);
6.1WordCount//2.2Exceptionmessage:/bin/bash:第0行:fg:无任务控制//设置跨平台co
您可能关注的文档
最近下载
- 航空运输地理单元四中国航空区划描述.ppt
- 喉肿瘤的护理措施.pptx VIP
- 第10课《往事依依》教学设计2024—2025学年统编版语文七年级上册.docx
- 中华民族一家亲,同心共筑中国梦.pptx VIP
- 职业技术学院处室工作人员学年考核细则.doc
- 基于plc的自动售货机系统设计—学士学位论文.doc VIP
- 知道网课跨文化沟通心理学智慧树章节测试答案2023.docx
- 苏教版五年级上册《我们的大脑》教学设计.docx
- 众泰-T600-产品使用说明书-T600 2.0T 豪华型DCT-JNJ6460QT-T600车系使用手册20131201.pdf
- RTO 操作规程考试试题及答案.docx
- 大学计算机网络教授老刘 + 关注
-
实名认证服务提供商
教师资格证、中级网络工程师持证人
专注于计算机技术相关文章撰写,方案设计,方案实现等,方案的个性定制,修改,润色等,本人已有8年相关工作经验,具有扎实的文案功底
文档评论(0)