- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[工学]分布式文件系统课件
* afs结论 不是完全的posix(可移植编程接口);加强的安全和访问控制,不支持文件的write-through(写内存) 通过副本,本地缓存提供高可靠性 不是对所有文件类型都适应 * 前面我们讲的分布式文件系统是cs模式,这种模式容易实现管理,但也容易产生瓶颈,下面要介绍的分布式文件系统都是基于p2p模式,当然不是完全的p2p模式,是集中式的p2p模式,就是cs和p2p的结合,用一个服务器管理目录,具体的数据存放在客户端,客户端先通过服务器查找的文件位置,然后直接到文件所在节点(也就是客户端)访问文件;首先我们介绍google文件系统和mapreduce编程模型 * Commodity hardware: 大众常见的硬件,比如pc服务器什么的 有上百万的文件,每个都有上百到上千兆,也有很小的文件,但很少 大部分的工作量是读 大量的顺序添加写操作 * 单一的master服务器来调整访问,保存元数据,就是每个chunk的数据 * 在客户端能缓存更多的索引 与master交互的次数就是操作chunk的次数,这样减少了网络流量 * 某个chunkserver离线了,其上的chunk位置就不会被存储 * Flexibility:弹性 * 任何修改操作,写或者是添加,都需要申请主chunckserver的lease(租约),数据修改必须提交到所有副本,要保证多用户请求修改操作时,具有相同的操作顺序,这边是一个修改操作的示意图 * 应用程序发起的写请求 * 失败的修改可能导致局部的数据不一致,比如一个chunckserver提交了修改,但其他的副本chunckserver没有,可以导致不一致性,在下一次修改时,master会首先检查版本,只是客户端有可能在不同的时间看到不同的数据,查询而言,会有不一致性,但写重试会纠正这种不一致性,而且读操作也会checksum,如果和master的不执行就会重新副本 * 合并:快速复制一个chunk,然后每个应用这个chunk的不同位置写,最后合并这些结果 * Intersperse: 散布 Defined: 定义明确的;如果所有的客户端都能看到修改的全部内容 * Checksum:每个数据生成一个,比如123的checksum是1+2+3=6,这个就会存储在master,读的时候会把chunk的checksum告诉客户端,访问是对数据按一定算法生成checksum然后和master的比较,如果一致说明数据正确,否则向master报告,重新获取这个chunk的其他副本,并做标记 * 数据的完整性 * Master可以识别所有的东西,它不认识的就认为是垃圾 * MapReduce可以实现超大集群上的简单数据处理 和GFS一样是Google提出来的 用户指定一个map函数处理一个key/value对,从而产生中间的key/value对集。然后再指定一个reduce函数合并所有的具有相同中间key的中间value 可以用这个模型来表示现实世界的工作 每天在Google的机群上都有1000多个MapReduce程序在执行 * 两个用户必须定义的函数 * 倒排索引 map函数分析每个文档,然后产生一个(词,文档ID)对的序列 reduce函数接收一个给定词的所有对,排序相应的文档IDs,并且产生一个(词,文档ID列表)对。所有的输出对集形成一个简单的倒排索引。它可以简单的增加跟踪词位置的计算 * 把输入文件分割成M个片 由Master把任务分配给Workers,M个Map任务和R个Reduce任务 Map任务读取文件片段,并产生key/value对 缓存在内存中的key/value对被周期性的写入到本地磁盘上,通过分割函数把它们写入R个区域 通过排序使具有相同key的内容聚合在一起 Reduce任务处理key/value对,并写入最终的输出文件中 返回 * 这是mapreduce的使用情况,google利用mapreduce重写了它的索引程序 索引的代码行数从原来的3800行C++代码一下减少到大概700行代码 * 这是04年的数据 * 接下来我谈谈hadoop文件系统,它是对GFS的实现,一个开源软件,对dfs感兴趣的可以使用一下,这个ppt后面有安装hadoop的附录 * Hadoop:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储 是对GFS和MapReduce的实现;实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,实现了MapReduce分布式计算模型 Hadoop得名于他的作者doug cutting儿子的玩具象hadoop,他也是有哪些信誉好的足球投注网站引
有哪些信誉好的足球投注网站
文档评论(0)