- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
hadoop入门介绍
MapReduce流程 这是一个统计单词数的流程,Hadoop 将输入数据切成若干个分片,并将每个split交给一个map task 处理,map任务生成简单的键值对,数据通过combine(合并key值,可选过程), shuffle(partion,sort,merge)将相同key值得数据合并,排序并通过key值分成若干个分片形成reduce的输入,并有reduce统计出结果,输出到文件。 Hadoop 发行版 三大主流 Hadoop厂商 我们的选择--Cloudera Cloudera生态圈提供:存储、监控、资源管理、 批处理、交互式SQL接口,交互式查询接口、元 数据管理以及机器学习等丰富的服务组件。 由于Hadoop深受客户欢迎,许多公司 都推出了各自版本的Hadoop, 在Hadoop生态系统中,规模最大、 知名度最高的公司则是Cloudera。 选择Cloudera的原因: 1、Cloudera在Hadoop厂商中规模最大、 知名度最高; 2、Cloudera社区活跃、文档教程丰富; 3、Cloudera提供丰富的组件,并提供完 善的集成封装、日志与监控,便于使用; 4、Cloudera一半以上的研发项目贡献于 Apache,并且是Hadoop很多项目的直接 参与人; 5、Cloudera提供免费版本,并且不限制 节点。 Cloudera Ecosystem Thank You Hadoop是开源,大数据解决方案行业标准 * * 正因为是分布式存储只要你存储到HDFS 就可以保证你的文件不丢失,如果你空间不够用可以通过加节点来扩展空间 * 优点:1.高容错性 (?数据自动保存多个副本 ?副本丢失后,自动恢复 ; 2.适合批处理 (?移动计算而非数据 ?数据位置暴露给计算框架 ;适合大数据处理 ?GB、TB、甚至PB级数据 ?百万规模以上的文件数量 ?10K+节点规模) 3.流式文件访问 (?一次性写入,多次读取 ?保证数据一致性 ) 4.可构建在廉价机器上 (?通过多副本提高可靠性 ?提供了容错和恢复机制 ) HDFS缺点 (不适合低延迟数据访问 ?比如毫秒级 ?低延迟与高吞吐率 ,两个指标只能满足其一,做权衡; 不适合小文件存取 ?占用NameNode大量内存 ?寻道时间超过读取时间 ;并发写入、文件随机修改 ?一个文件只能有一个写者 ?仅支持append 随着现在的硬盘价格下降,可以把视频监控、爬虫数据都存储在HDFS上 * NameNode是HDFS的元数据节点,管理文件系统的命名空间,它维护着这个文件系统树以及这个树内所有的文件和索引目录,命名空间镜像(目录,数据块到文件的映射)和编辑日志,同时也记录每个数据块的所在数据节点。 数据节点是文件系统的实际文件数据存储节点。它们提供定位块服务,并向元数据节点发送它们存储块的列表。 Hadoop解决单点故障问题主要是通过两种方式: 1、NFS文件共享 ( nfs方式是重量级的需要单独部署维护的,他作为namenode和standy namenode之间数据共享的存储, 缺点是如果active 那么node 或者standy namenode有一个和nfs之间发生网络故障,将会造成数据同步问题。) 2、QJM 方式 CLOUDERA提出 QJM方式解决了nfs面临的问题,active namenode和standy namenode 之间通过一组journalnode奇数来共享数据, active nn 把最近的edits文件写到2n+1个journalnode只有n+1个写入成功,然后standy nn 就开始读取,这种方式支持容错! * 如上图所示,HDFS也是按照Master和Slave的结构。分NameNode、SecondaryNameNode、DataNode这几个角色。 NameNode:是Master节点,是大领导。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间; SecondaryNameNode:是一个小弟,分担大哥namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。 DataNode:Slave节点,奴隶,干活的。负责存储client发来的数据块block;执行数据块的读写操作。 热备份:b是a的热备份,如果a坏掉。那么b马上运行代替a的工作。 冷备份:b是a的冷备份,如果a坏掉。那么b不能马上代替a工作。但是b上存储a的一些信息,减少a坏掉之后的损失。 fsimage:元数据镜像文件(文件系统的目录树。) edits:元数据的操作日志(针对文件系统做的修
您可能关注的文档
最近下载
- 国开电大《土木工程力学(本)》形考作业3答案.pdf VIP
- 秋冬季如何预防儿童感冒.pptx
- 2025至2030南京市医疗机构行业市场运营调研及有效策略与实施路径评估报告.docx
- 《机械结构有限元分析-理论》课程教学大纲.doc VIP
- 异物控制改善日期.ppt VIP
- 2025年6月四级真题及答案 (1).docx VIP
- 围手术期安全管理PPT.pptx VIP
- 《高层民用建筑设计防火规范》_GB50045-95_2005年.pdf VIP
- 第四课 用联系的观点看问题(精品课件)-【中职专用】高二思想政治《哲学与人生》同步精品课堂(高教版2023·基础模块).pptx VIP
- 2025年辅警招聘公安基础知识100题及答案.pdf VIP
文档评论(0)