了解Hadoop概念.pptx

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
hadoop;前言;前言-从IT时代到DT时代;目录;Hadoop那段早被说烂了的历史……;2008年1月,Hadoop已成为Apache顶级项目,证明它是成功的。通过这次机会,Hadoop成功地被雅虎之外的很多公司应用,如Facebook、纽约时报等。特别是纽约时报,它使用运行在亚马逊的EC2云计算上Hadoop,将4TB的报纸扫描文档压缩,转换为用于Web的PDF文档,这个过程历时不到24小时,使用100台机器运行,这成为Hadoop一个良好的宣传范例。 2008年2月,雅虎宣布其索引网页的生产系统采用了在10000多个核的Linux集群上运行的Hadoop。Hadoop真正达到了万维网的规模。2008年4月,在一个900节点的Hadoop集群上,雅虎的研究人员运行1TB的Jim Gray基准排序,只用了209秒。 2009年4月,在一个1400节点的集群上对500GB数据进行排序,只用了59秒,这显示了Hadoop强大的计算能力。;Hadoop是什么呢?;Hadoop的变迁;Hadoop App Store;Hadoop App Store;Hadoop的各种app;Hadoop的各种app;Hadoop的基本三要素;目录;HDFS;HDFS 特点;HDFS 通讯;HDFS 读操作;HDFS 写操作;HDFS 其他;目录;Hadoop术语 ;MapReduce (离线分布式计算框架)工作机制;Mapreduce(离线分布式计算框架) 编程模型;Mapreduce(shufflesort) 编程模型; MapReduce主要由两个阶段完成:Map阶段和Reduce阶段。用户只需编写map()和reduce()两个函数,即可完成简单的分布式程序的设 计。 Map()函数 以key, value对作为输入,产生一系列的key, value对作为中 间结果输出写入本地磁盘。MapReduce框架会自动将这些中间 数据按照key值进行分区,且key值分区结果相同的数据会被交 给同一个reduce()函数处理。 Reduce()函数 以key以及对应的value列表(即key, listvalue)作为输入, 经过合并key相同的value值后,产生一系列的key, value对作 为最终结果输出。;MapReduce (示例)求单块数据每年的最高气温的数据流;Mapreduce(离线分布式计算框架) 编程模型;MapReduce (示例)求多块数据每年的最高气温的数据流;目录;;;Oracle备库;阿里大数据探索;;;;;;目录;Storm流式实时计算;应用案例-星环科技(Transwarp);我们能做什么-用户画像;应用案例-深圳移动车主用户场景数据分析;挖掘消费者心目中的竞争格???;;;;旅游;游客量;9078人;游览景点最多的省份;;女性游客13435人,其中 90后:1946人,占比:14.8% 80后:5022人,占比:38.3% 70后:3913人,占比:29.9% 60后:1798人,占比:13.7% 50后: 425人,占比:3.2%; 2015年8月唐山金沙岛、菩提岛、月坨岛共接待游客60326人,其中本市30862名,占比51.2 %,本省外市13751名,占比22.8%,外省15712名,占比26%。人流量高峰段集中在10点——18点之间。 ;谢 谢

文档评论(0)

502992 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档