Spark大数据分析 课件 4.3 RDD类型操作.pptx

Spark大数据分析 课件 4.3 RDD类型操作.pptx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

RDD类型操作

目录/Contents01转换算子02行动算子

转换算子01

转换算子Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。下面是一些常用的转换算子操作的API。操作介绍map(func)将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDDfilter(func)对RDD中每个元素进行判断,如果返回true则保留,返回false则剔除flatMap(func)与map类似,但是对每个元素都可以返回一个或多个新元素groupByKey(func)根据key进行分组,每个key对应一个IterablevaluereduceByKey(func)对每个key对应value进行reduce操作

转换算子1.map(func)map(func)操作是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。2.filter(func)filter(func)操作会筛选出满足条件(即func)的元素,返回一个新的数据集。3.flatMap(func)类似于map,但是每一个输入元素,会被映射为0到多个输出元素(因此,func函数的返回值是一个Seq,而不是单一元素)。在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集。4.groupByKey(func)5.reduceByKey(func)顾名思义,reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行reduce,因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。

行动算子02

行动算子Action:行动算子,这类算子会触发SparkContext提交Job作业。下面是一些常用的行动算子操作的API。操作介绍?reduce(func)通过函数func聚集数据集中的所有元素。Func函数接受2个参数,返回一个值。这个函数必须是关联性的,确保可以被正确的并发执行collect()在Driver的程序中,以数组的形式,返回数据集的所有元素。count()返回数据集的元素个数take(n)返回一个数组,由数据集的前n个元素组成。first()返回数据集的第一个元素(类似于take(1))foreach(func)在数据集的每一个元素上,运行函数func。?saveAsTextFile(path)将数据集的元素,以textfile的形式,保存到本地文件系统,hdfs或者任何其它hadoop支持的文件系统。Spark将会调用每个元素的toString方法,并将它转换为文件中的一行文本

行动算子1.reduce(func)reduce将RDD中元素两两传递给输入函数,同时产生一个新的值,新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。2.collect()在Driver的程序中,以数组的形式,返回数据集的所有元素。这通常会在使用filter或者其它操作后,返回一个足够小的数据子集再使用,直接将整个RDD集Collect返回,很可能会让Driver程序OOM。3.count()count返回整个RDD的元素个数。我们可以定义一个RDD,使用count()来统计RDD的元素个数。take和collect操作类似,只是collect操作获取的所有数据,而take操作是获取前n个元素。4.take(n)5.first()first()的作用是返回数据集的第一个元素.我们可以定义一个RDD,使用first()来获取RDD中的第一个元素。6.foreach(func)foreach对RDD中的每个元素都应用func函数操作,不返回RDD和Array,而是返回Uint。

感谢大家的聆听

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档