Spark大数据分析 课件 4.5 RDD机制.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

RDD机制

目录/Contents01持久化机制01容错机制

持久化机制01

持久化机制多次对某个RDD进行transformation或者action,如果没有做RDD持久化,那么每次都要重新计算一个RDD,会消耗大量时间,降低Spark性能。Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD。

持久化机制存储级别说明?MEMORY_ONLY将RDD以反序列化Java对象的形式存储在JVM中。如果内存空间不够,部分分区将不再缓存,在每次需要用到这些数据时重新进行计算。这是默认的存储级别。?MEMORY_AND_DISK将RDD以反序列化Java对象的形式存储在JVM中。如果内存空间不够,将未缓存的数据分区存储到磁盘,在需要使用这些分区时从磁盘读取。?MEMORY_ONLY_SER将RDD以序列化的Java对象的形式进行存储(每个分区为一个字节数组)。这种方式比反序列化的Java对象节省空间,但是在读取时会增加CPU的计算负担。?MEMORY_AND_DISK_SER类似于MEMORY_ONLY_SER,但是溢出的分区会存储到磁盘,而不是在用到它们时重新计算。DISK_ONLY只在磁盘上缓存RDD。?MEMORY_ONLY_2,MEMORY_AND_DISK_2与上面的级别功能相同,只不过每个分区在集群中两个节点上建立副本。需要加上后缀_2,代表的是将每个持久化的数据都复制一份副本,并将副本保存到其他节点上。?OFF_HEAP类似于MEMORY_ONLY_SER,但是将数据存储在off-heapmemory(堆外内存),这需要启动off-heap内存。

持久化机制1.如何选择存储级别Spark的存储级别的选择,核心问题是在内存使用率和CPU效率之间进行权衡。2.cache()和persist()的区别cache()和persist()的区别在于,cache()是persist()的一种简化方式,cache()的底层就是调用的persist()的无参版本,同时就是调用persist(MEMORY_ONLY),将数据持久化到内存中。

容错机制02

容错机制Spark的计算本质就是对RDD做各种转换,因为RDD是一个不可变只读的集合,因此每次的转换都需要上一次的RDD作为本次转换的输入,因此RDD的lineage描述的是RDD间的相互依赖关系。为了保证RDD中数据的健壮性,RDD数据集通过所谓血统关系(lineage)记住了他是如何其他RDD中演变过来的。Spark将RDD之间的关系规类为宽依赖和窄依赖。Spark会根据Lineage存储的RDD的依赖关系对RDD计算做故障容错,目前Spark的容错策略主要是根据RDD依赖关系重新计算、对RDD做cache、对RDD做checkpoint手段完成RDD计算的故障容错。

容错机制SparkRDD实现基于Lineage的容错机制,基于RDD的各项transformation构成了computechain,在部分计算结果丢失的时候可以根据Lineage重新恢复计算。(1)在窄依赖中,在子RDD的分区丢失,要重算父RDD分区时,父RDD相应分区的所有数据都是子RDD分区的数据,并不存在冗余计算。(2)在宽依赖情况下,丢失一个子RDD分区,重算的每个父RDD的每个分区的所有数据并不是都给丢失的子RDD分区用的,会有一部分数据相当于对应的是未丢失的子RDD分区中需要的数据,这样就会产生冗余计算开销和巨大的性能浪费。

感谢大家的聆听

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档