hadoop概述及搭建环境.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
今天的课程内容Hadoop是什么?了解Hadoop生态圈搭建Hadoop环境(单机伪分布式)Hadoop是什么?数据越来越多,该怎么办?电信行业用户基数大,产生数据多!数据有价值电商行业用户想买到最想要的商品商家想卖出更多的商品个性化商品推荐淘宝云梯项目:Hadoop产生背景HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网有哪些信誉好的足球投注网站引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。分布式文件系统(GFS),可用于处理海量网页的存储分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。什么是Hadoop?HADOOP是Apache旗下的一套开源软件平台HADOOP提供的功能:利用服务器集群对数据进行存储,根据用户的自定义业务逻辑,对海量数据进行分布式计算广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈Hadoop解决了什么问题?海量数据的存储(HDFS)海量数据的技术(MapReduce)资源调度(YARN)Hadoop生态圈重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架HIVE:SQL数据仓库工具HBASE:基于HADOOP的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件Sqoop:数据迁移工具Flume:日志数据采集框架YARN:资源调度系统Hadoop架构分布式架构简介单机的问题存储能力有限计算能力有限有单点故障...分布式架构解决了单机的问题经典分布式主从架构(Master-Slave)Master负责管理(相当于老大)Master可以有多个,防止单点故障的发生Slave负责干活(相当于小弟)Slave有多个,并且可以动态的添加或移除Hadoop2.0HDFS :NameNode(老大) DataNode(小弟)YARN :ResourceManager(老大) NodeManager(小组长)Hadoop架构Hadoop环境搭建(单机为分布式)为分布式架构NameNode是HDFS的管理节点,负责DataNode的管理和元数据管理SecondaryNameNode是NameNode的一个助理,帮助NameNode管理元数据,防止元数据丢失DataNode负责数据存储ResourceManager是YARN的管理节点,负责NodeManager的管理、任务调度等NodeManager是YARN的节点管理器,负责向ResourceManager汇报当前节点的状态和启动计算任务进程(YarnChild)并监控YarnChild准备Linux环境修改主机名vi /etc/sysconfig/networkNETWORKING=yesHOSTNAME=修改ip地址(仅主机模式)vi /etc/sysconfig/network-scripts/ifcfg-eth0DEVICE=eth0TYPE=EthernetONBOOT=yesBOOTPROTO=staticIPADDR=28NETMASK=#GATEWAY=#DNS1=14#DNS2=重启网络服务service network restart配置主机名和IP地址的映射关系vi /etc/hosts localhost localhost.localdomain localhost4 localhost4.localdomain4::1 localhost localhost.localdomain localhost6 localhost6.localdomain628 hostname 关闭防火墙service iptables statusservice iptables stop设置防火墙开机不启动chkconfig iptables --listchkconfig iptables off安装JDK上传JDKmkdir /usr/java解压JDKtar -zxvf jdk-8u111-linux-x64.tar.gz -C /usr/java/修改环境变量vi /etc/profileexport JAVA_HOME=/usr/java/jdk1.8.0_111export PATH=$PATH:$JAVA_HOME/bin重新加载环境变量脚本source /etc/profile验证Java是否生效java -

文档评论(0)

wuyoujun92 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档