Hadoop权指南中文版前三章.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
目录目录?I 初识Hadoop?1 1.1? 数据!数据?1 1.2? 数据的存储和分析?3 1.3? 相较于其他系统?4 1.4? Hadoop发展简史?9 1.5? Apache Hadoop项目?12 MapReduce简介?15 2.1? 一个气象数据集?15 2.2? 使用Unix Tools来分析数据?17 2.3? 使用Hadoop进行数据分析?19 2.4? 分布化?30 2.5? Hadoop流?35 2.6? Hadoop管道?40 Hadoop分布式文件系统?44 3.1? HDFS的设计?44 3.2? HDFS的概念?45 3.3? 命令行接口?48 3.4? Hadoop文件系统?50 3.5? Java接口?54 3.6? 数据流?68 3.7? 通过distcp进行并行复制?75 3.? Hadoop归档文件?77 Hadoop的I/O?80 4.1? 数据完整性?80 4.2? 压缩?83 4.3? 序列化?92 4.4? 基于文件的数据结构?111 MapReduce应用开发?125 5.1? API的配置?126 5.2? 配置开发环境?128 5.3? 编写单元测试?134 5.4? 本地运行测试数据?138 5.5? 在集群上运行?144 5.6? 作业调优?159 5.7? MapReduce的工作流?162 MapReduce的工作原理?166 6.1? 运行MapReduce作业?166 6.2? 失败?172 6.3? 作业的调度?174 6.4? shuffle和排序?175 6.6? 任务的执行?181 MapReduce的类型与格式?188 7.1? MapReduce类型?188 7.3? 输出格式?217 MapReduce 特性?227 8.1? 计数器?227 8.2? 排序?235 8.3? 联接?252 8.4? 次要数据的分布?258 8.5? MapReduce的类库?263 Hadoop集群的安装?264 9.1? 集群说明?264 9.2? 集群的建立和安装?268 9.3? SSH配置?270 9.4? Hadoop配置?271 9.5? 安装之后?286 9.6? Hadoop集群基准测试?286 9.7? 云计算中的Hadoop?290 Hadoop的管理?293 10.1? HDFS?293 10.2? 监控?306 10.3? 维护?313 Pig简介?321 11.1? 安装和运行Pig?322 11.2? 实例?325 11.3? 与数据库比较?329 11.4? Pig Latin?330 11.5? 用户定义函数?343 11.6? 数据处理操作符?353 11.7? Pig实践提示与技巧?363 Hbase简介?366 12.1? HBase基础?366 12.2? 概念?367 12.3? 安装?371 12.4? 客户端?374 12.5? 示例?377 12.6? HBase与RDBMS的比较?385 12.7? 实践?390 ZooKeeper简介?394 13.1? ZooKeeper的安装和运行?395 13.2? 范例?396 13.3? ZooKeeper服务?405 13.4? 使用ZooKeeper建立应用程序?417 13.5? 工业界中的ZooKeeper?428 案例研究?431 14.1? Hadoop在Last.fm的应用?431 14.2? Hadoop和Hive在Facebook的应用?441 14.3? Hadoop在Nutch有哪些信誉好的足球投注网站引擎?451 14.4? Hadoop用于Rackspace的日志处理?466 14.5? Cascading项目?474 14.6? Apache Hadoop的1 TB排序?488 Apache Hadoop的安装?491 Cloudera的Hadoop分发包?497 预备NCDC气象资料?502第1章 初识Hadoop古时候,人们用牛来拉重物,当一头牛拉不动一根圆木的时候,他们不曾想过培育个头更大的牛。同样,我们也不需要尝试更大的计算机,而是应该开发更多的计算系统。--格蕾斯·霍珀1.1? 数据!数据我们生活在数据时代!很难估计全球存储的电子数据总量是多少,但是据IDC估计2006年数字全球项目(digital universe)的数据总量为0.18 ZB,并且预测到2011年这个数字将达到1.8 ZB,为2006年的10倍 。1 ZB相当于10的21次方字节的数据,或者相当于1000 EB,1 000 000 PB,或者大家更熟悉的10亿TB的数据!这相当于世界上每个人一个磁盘驱动器的数量级。这一数据洪流有许多来源。考虑下文:? 纽约证券交易所每天产生1

文档评论(0)

pao0969363mou8 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档