Hahoop 入门基础知识.pptxVIP

下载本文档

5
0
约1.14万字
约 56页
2018-01-31 发布于湖北
举报
版权申诉

Hahoop 入门基础知识.pptx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Hahoop 入门基础知识

Hahoop 入门基础知识海量数据处理平台架构一般网站把用户的访问行为记录以apach 日志的形式记录下来了，这些日志中包含了下面一些关键字段： client_ip ,user_id,access_time,url,referer,status,page_size,agent因为需要统一对数据进行离线计算，所以常常把它们全部移到同一个地方。简单算了一下：（1）网站请求数：1kw/天（2）每天日志大小：450Byte/行* 1kw = 4.2G，（3）日志存储周期：2 年一天产生4.5G 的日志，2 年需要4.2G * 2 * 365 = 3.0T解决方案：为了方便系统命令查看日志，不压缩，总共需要3.0T 的空间，刚好有一些2U 的服务器，每台共1T 的磁盘空间。为了避免系统盘坏掉影响服务器使用，对系统盘做了raid1。为了避免其他存放数据的盘坏掉导致数据无法恢复，对剩下的盘做了raid5。所有的数据都汇聚到这几台LogBackup 服务器上来了。有了LogBackup 服务器，离线统计就可以全部在这些服务器上进行了。在这套架构上，用wc、grep、sort、uniq、awk、sed 等系统命令，完成了很多的统计需求，比如统计访问频率较高的client_ip，某个新上线的的页面的referer 主要是哪些网站。当业务的迅猛发展，网站流量爆发增长，产品经理如果想从中获取更多的用户特征和用户信息，就需要我们这些数据分析人员从不同的日志中找到令他们满意的答案。如果（1）日志总行数：10 亿/天（2）每天日志大小：450Byte/行* 10 亿= 420G，（3）日志种类：5 种Hadoop能解决哪些问题海量数据需要及时分析和处理。海量数据需要深入分析和挖掘。数据需要长期保存问题：磁盘IO成为一种瓶颈,而非CPU资源。网络带宽是一种稀缺资源硬件故障成为影响稳定的一大因素Hadoop在国内的情景奇虎360：Hadoop存储软件管家中软件，使用CDN技术将用户请求引到最近的Hadoop集群并进行下载京东、百度：存储、分析日志、数据挖掘和机器学习（主要是推荐系统）广告类公司：存储日志，通过协调过滤算法为客户推荐广告Yahoo：垃圾邮件过滤华为：云计算平台Facebook：日志存储，实时分析某公安部项目：网民QQ聊天记录与关联人调查系统，使用Hbase实现某学校：学生上网与社会行为分析，使用hadoop淘宝、阿里：国内使用Hadoop最深入的公司，整个Taobao和阿里都是数据驱动的Hadoop开发人员市场需求和待遇Hadoop在国内的人才储备Hadoop介绍1）作者：Doug Cutting2)用Java编写的开源系统，能够安排在大规模的计算平台上，从而长进计算效率。3）Nutch有哪些信誉好的足球投注网站引擎里面的一个模块。4）受Google三篇论文的启发 MapReduce GFS Bigtable5）google hadoop mapreduce mapreduce GFS HDFS Bigtable HbaseHadoop生态系统介绍Hbase 1）Nosql数据库，Key-Value存储 2）最大化利用内存HDFS 1） hadoop distribute file system分布式文件系统 2）最大化利用磁盘MapReduce 1）编程模型，主要用来做数据的分析 2）最大化利用CPU HDFS篇HDFS设计原则文件以块(block)方式存储每个块带下远比多数文件系统来的大(预设64M)通过副本机制提高可靠度和读取吞吐量每个区块至少分到三台DataNode上单一 master (NameNode)来协调存储元数据(metadata)客户端对文件没有缓存机制 (No data caching)HDFS系统结构NameNode(NN)NameNode主要功能提供名称查询服务，它是一个jetty服务器NameNode保存metadate信息包括文件owership和permissions文件包含哪些块Block保存在哪个DataNode（由DataNode启动时上报）NameNode的metadate信息在启动后会加载到内存metadata存储到磁盘文件名为”fsimage” Block的位置信息不会保存到fsimageNameNode块存储结构metadate物理存储结构DataNode（DN）保存Block启动DN线程的时候会向NN汇报block信息通过向NN发送心跳保持与其联系（3秒一次），如果NN 10分钟没有收到DN的心跳，则认为其已经lost，并copy其上的block到其它DN Block的副本放置策略第一个副本：放置在上传文件的DN；如果