- 1、本文档共29页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于hadoop2.0并行数据处理应用毕业论文
电子科技大学成都学院云计算系
实践专周设计报告
课 程 名 称:基于Hadoop2.0并行数据处理应用
指导 教师 组: 邹倩颖 王小芳
组长学号姓名: 1341310131 屈太源
组员学号姓名: 1341310120 冯小丹
组员学号姓名: 1341310726 张 瑜
云计算科学与技术系制
2015年12月
目 录
第1章 引 言 1
1.1 问题分析 1
1.2 设计目标 1
1.2.1 基本功能 1
1.2.2 扩展功能 2
1.3 设计思路 2
1.4 功能描述 2
1.5 设计过程 3
第 4
2.1 Hadoop平台介绍 4
2.2 MapReduce并行程序设计 4
2.2.1 Map函数 4
2.2.2 Reduce函数 5
2.2.3 MapReduce计算模型的优化 5
2.3 HDFS简介 6
2.3.1 HDFS节点 6
2.3.2 关于NameNode 6
2.3.3 关于DataNode及体系结构图 7
第 8
3.1 搭建hadoop伪分布的环境 8
3.2 设置ssh免密码登本地 8
3.2.1 创建一个wifi 8
3.2.2 配置jdk 9
3.2.3 配置hadoop 9
3.2.4 测试hadoop是否搭建成功 12
第 13
4.1 第一案例要求 13
4.2 核心代码1 13
4.3 第二案例要求 16
4.4 核心代码2 16
第 20
5.1 集群测试和调试 20
5.2 集群系统存在的问题及解决方案 20
5.3 收获及心得体会 21
参考文献 22
致谢 23
引 言
问题分析
Hadoop是Apache软件基金会旗下的一个开源分布式计算机平台。以Hadoop分布式文件系统HDFS和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式架构。
Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。
设计目标
基本功能
Hadoop集群环境具体搭建工作,需要调用jps命令,启动5个服务进程,完成Eclipse环境搭建。
图1-1 集群搭建
扩展功能
1.编写手机拨打电信、联通、移动特殊号码的统计应用。
2.倒排索引的实现。
3.Hadoop集群环境搭建,需调用jps命名启动5个服务进程。
设计思路
环境搭建
1、安装前的准备
完成分布式集群环境的搭建,一个master节点,两个slave节点,在hosts中添加主从节点的IP地址。在hostname中修改主机名,并使其生效。在主要点中添加相应从节点的IP。在yarn-env.sh中添加Java_home的路径。
2、安装JDK
JDK安装较为简单。
使用VMware Workstation 安装了3个RHEL 5.2系统。装好一个RHEL,并且安装好JDK,再利用VMware Workstation的克隆功能完成另外两个的安装。
3、更改主机名
IP设置:
Master:16
Slave1:7
Slave2:3
功能描述
步骤1:用户向YARN中提交应用程序,其中包括ApplicationMaster程序、启动ApplicationMaster的命令、用户程序等。
步骤2:ResourceManager为该应用程序分配第一个Container(这里可以理解为一种资源比如内存),并与对应的Node-Manager通信,要求它在这个Container中启动应用程序的ApplicationMaster。
步骤3:ApplicationMaster首先向ResourceManager注册,这样用户可以直接通过ResourceManage查看应用程序的运行状态,然后它将为各个任务申请资源,并监控它的运行状态,直到运行结束,即重复步骤4~7。
步骤4:ApplicationMaster采用轮询的方式通过RPC协议向ResourceManager申请和领取资源。
步骤5:一旦ApplicationMaster申请到资源后,便与对应的NodeManager通信,要求它启动任务。
步骤6:NodeManager为任务设置好运行环境(包括环境变量、JAR包、二进制程序等)后,将任务启动命令写到一个脚本中,并通过运行该脚本启动任务。
步骤7:各个任务通过某个RPC协议向ApplicationMaster汇报自己的状态和进度,以让ApplicationMaster随时掌握各个任务的运行状态,从而可以在任务失败时重新启动任务。在应用程序运行过程中,用户可随时通过RPC向ApplicationMaster查询应用程序的当前运行状态。
步骤8:应用程序运行完成后,ApplicationMaster向ResourceManager注销并关闭自己)
您可能关注的文档
最近下载
- 军工AI机器人行业系列报告之一:军工智能化无人化加速演进,深度融合引领军事变革奇点.pptx VIP
- 邮储银行地区分行组织架构与各部门职责解析.docx VIP
- 深孔弧形工作闸门及液压启闭机安装施工方案4.docx
- TCAS-海洋环境预报数据资料质量控制指南.pdf VIP
- 2024年湖南省长沙市小升初数学试卷附答案解析.doc VIP
- 介绍仪表课件.pptx VIP
- 检验检测机构资质认定评审员复习试题.doc VIP
- 林木种苗工考试林木种苗工(技师).doc VIP
- 2 数据管理能力成熟度DCMM评估介绍.pptx VIP
- 人教版六年级 数学 下册第3单元圆柱和圆锥【全单元】PPT课件.ppt VIP
文档评论(0)