- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Spark性能优化资源调优篇.PDF
Spark性能优化:资源调优篇
Spark大数据博客 -
Spark性能优化:资源调优篇
《Spark性能优化:开发调优篇》
《Spark性能优化:资源调优篇》
《Spark性能优化:数据倾斜调优》
《Spark性能优化:shuffle调优》
在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在
spark-submit命令中作为参数设置。很多Spark初学者,通常不知道该设置哪些必要的参数,以及
如何设置这些参数,最后就只能胡乱设置,甚至压根儿不设置。资源参数设置的不合理,可能会
导致没有充分利用集群资源,作业运行会极其缓慢;或者设置的资源过大,队列没有足够的资源
来提供,进而导致各种异常。总之,无论是哪种情况,都会导致Spark作业的运行效率低下,甚
至根本无法运行。因此我们必须对Spark作业的资源使用原理有一个清晰的认识,并知道在Spark
作业运行过程中,有哪些资源参数是可以设置的,以及如何设置合适的参数值。
Spark作业基本运行原理
1 / 5
Spark性能优化:资源调优篇
Spark大数据博客 -
详细原理见上图。我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个
对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,
也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数,占有一定数量的
内存和CPU core。而Driver进程要做的第一件事情,就是向集群管理器(可以是Spark Standalon
e集群,也可以是其他的资源管理集群,美团?大众点评使用的是YARN作为资源管理集群)申请
运行Spark作业需要使用的资源,这里的资源指的就是Executor进程。YARN集群管理器会根据我
们为Spark作业设置的资源参数,在各个工作节点上,启动一定数量的Executor进程,每个Execut
or进程都占有一定数量的内存和CPU core。
在申请到了作业执行所需的资源之后,Driver进程就会开始调度和执行我们编写的作业代码
了。Driver进程会将我们编写的Spark作业代码分拆为多个stage,每个stage执行一部分代码片段
,并为每个stage创建一批task,然后将这些task分配到各个Executor进程中执行。task是最小的
计算单元,负责执行一模一样的计算逻辑(也就是我们自己编写的某个代码片段),只是每个tas
k处理的数据不同而已。一个stage的所有task都执行完毕之后,会在各个节点本地的磁盘文件中
写入计算中间结果,然后Driver就会调度运行下一个stage。下一个stage的task的输入数据就是上
一个stage输出的中间结果。如此循环往复,直到将我们自己编写的代码逻辑全部执行完,并且计
算完所有的数据,得到我们想要的结果为止。
Spark是根据shuffle类算子来进行stage的划分。如果我们的代码中执行了某个shuffle类算子
(比如reduceByKey、join等),那么就会在该算子处,划分出一个stage界限来。可以大致理解
为,shuffle算子执行之前的代码会被划分为一个stage,shuffle算子执行以及之后的代码会被划
分为下一个stage。因此一个stage刚开始执行的时候,它的每个task可能都会从上一个stage的tas
k所在的节点,去通过网络传输拉取需要自己处理的所有key,然后对拉取到的所有相同的key使
用我们自己编写的算子函数执行聚合操作(比如reduceByKey()算子接收的函数)。这个过程就是
shuffle。
当我们在代码中执行了cache/persist等持久化操作时,根据我们选择的持久化级别的不同,
每个task计算出来的数据也会保存到Executor进程的内存或者所在节点的磁盘文件中。
因此Executor的内存主要分为三块:第一块是让task执行我们自己编写的代码时使用,默认
是占Executor总内存的20%;第二块是让task通过shuff
文档评论(0)