hadoop0.1源码剖析.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
hadoop0.1源码剖析

断断续续看hadoop0.1的源码也估计有5个月了,觉得这个东西非常有趣,也为自己能看懂一个Mapreduce的开源实现而感到欣喜,这段时间学习了很多j2se的知识,也略微学到了hadoop作者设计软件的思路。在09年7月的时候自己还动手做了个小系统,大概的意思就是在hadoop里插入代码,然后可视化其中的机理。现在我还是一直在研究这个,谁叫我靠这个毕业呢 =。= 接下来的很多篇连续的文章里,我给自己的目标是详详细细的记录每个细节,从使用什么ide,到怎么导入hadoop0.1工程,怎么读懂源码,到怎么修改内核源码,并且重新编译最后使用自己的源码并使用。源码我基本上80%都仔细看过了,绝大部分都作了注释。只是一下子发上来估计朋友们会弄不清头绪,我尽量写清晰点。 热忱欢迎网友来交流,给出意见!也不知道我能坚持多久,估计有些支持的话会更好。。 mapreduce是一个新的分布式计算模型,按我这个土人的理解,分布式计算模型就是一个软件库,它的本事就是能把好多机器集合起来一起做一件事情,让它做得比一台机子更快,它跟以前的mpi有很多相似的地方,比如都牵扯到多台机器(废话。。),但是mapreduce有主从之分;都牵扯到多个分布式进程(废话。。),但是mpi的进程之间通信非常显著和必要,而mapreduce的分布式进程之间通信几乎为0;两者还有一些区别,比如mpi更适合cpu密集型的运算,是一个通用的分布式计算框架,而mapreduce是特地设计用来计算大规模数据集的,说得直白一点,数据量要是不上个几百G上T,还体现不出mapreduce的优势呢!还有,mapreduce的程序是写一次可以应付n个节点的,而不管这个n是多少,我的程序依然不变。不太知道mpi是不是这样,就不在这里妖言惑众了。 另外,mapreduce最开始是由google提出并用c++实现的,没有源码发布。hadoop是dong cutting用java写的开源的实现,这老兄以前是大名鼎鼎的lucene的作者。膜拜一下先。 下一篇讲如何获取hadoop的源码,hadoop源码的组织结构是什么,各个包是干嘛的,还有怎么导入源码到eclipse中,甚至怎么修改源码,编译新内核。以及一些mapreduce的基础知识,包括它的两个组成部分,map和reduce到底是在干嘛。有时间也会写怎么使用hadoop的。。以及为什么选择0.1版本。 第一篇就从一个mapreduce的经典例子讲起。wordcount.java。说简单点,当输入是 ##file1.txt hello hello hello world world ##file2.txt world hello other 那么输出是 hello 4 world 3 other 1 现在就知道wordcount其实就是计算词出现的次数的。如果你用这个数据量当输入,那么你会失望透顶,因为运算速度巨慢,但是数据量是上G的时候,你还是会喜出望外的。 上源码! /** * Copyright 2006 The Apache Software Foundation * * Licensed under the Apache License, Version 2.0 (the License); * you may not use this file except in compliance with the License. * You may obtain a copy of the License at * * /licenses/LICENSE-2.0 * * Unless required by applicable law or agreed to in writing, software * distributed under the License is distributed on an AS IS BASIS, * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. * See the License for the specific language governing permissions and * limitations under the License. */ package org.apache.hadoop.examples; import java.io.*; import java.util.*; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.IntWritable; import org.apache.ha

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档