- 1、本文档共9页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
RDD类型操作
目录/Contents01转换算子02行动算子
转换算子01
转换算子Transformation:转换算子,这类转换并不触发提交作业,完成作业中间过程处理。下面是一些常用的转换算子操作的API。操作介绍map(func)将RDD中的每个元素传入自定义函数,获取一个新的元素,然后用新的元素组成新的RDDfilter(func)对RDD中每个元素进行判断,如果返回true则保留,返回false则剔除flatMap(func)与map类似,但是对每个元素都可以返回一个或多个新元素groupByKey(func)根据key进行分组,每个key对应一个IterablevaluereduceByKey(func)对每个key对应value进行reduce操作
转换算子1.map(func)map(func)操作是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。2.filter(func)filter(func)操作会筛选出满足条件(即func)的元素,返回一个新的数据集。3.flatMap(func)类似于map,但是每一个输入元素,会被映射为0到多个输出元素(因此,func函数的返回值是一个Seq,而不是单一元素)。在一个由(K,V)对组成的数据集上调用,返回一个(K,Seq[V])对的数据集。4.groupByKey(func)5.reduceByKey(func)顾名思义,reduceByKey就是对元素为KV对的RDD中Key相同的元素的Value进行reduce,因此,Key相同的多个元素的值被reduce为一个值,然后与原RDD中的Key组成一个新的KV对。
行动算子02
行动算子Action:行动算子,这类算子会触发SparkContext提交Job作业。下面是一些常用的行动算子操作的API。操作介绍?reduce(func)通过函数func聚集数据集中的所有元素。Func函数接受2个参数,返回一个值。这个函数必须是关联性的,确保可以被正确的并发执行collect()在Driver的程序中,以数组的形式,返回数据集的所有元素。count()返回数据集的元素个数take(n)返回一个数组,由数据集的前n个元素组成。first()返回数据集的第一个元素(类似于take(1))foreach(func)在数据集的每一个元素上,运行函数func。?saveAsTextFile(path)将数据集的元素,以textfile的形式,保存到本地文件系统,hdfs或者任何其它hadoop支持的文件系统。Spark将会调用每个元素的toString方法,并将它转换为文件中的一行文本
行动算子1.reduce(func)reduce将RDD中元素两两传递给输入函数,同时产生一个新的值,新产生的值与RDD中下一个元素再被传递给输入函数直到最后只有一个值为止。2.collect()在Driver的程序中,以数组的形式,返回数据集的所有元素。这通常会在使用filter或者其它操作后,返回一个足够小的数据子集再使用,直接将整个RDD集Collect返回,很可能会让Driver程序OOM。3.count()count返回整个RDD的元素个数。我们可以定义一个RDD,使用count()来统计RDD的元素个数。take和collect操作类似,只是collect操作获取的所有数据,而take操作是获取前n个元素。4.take(n)5.first()first()的作用是返回数据集的第一个元素.我们可以定义一个RDD,使用first()来获取RDD中的第一个元素。6.foreach(func)foreach对RDD中的每个元素都应用func函数操作,不返回RDD和Array,而是返回Uint。
感谢大家的聆听
您可能关注的文档
- Spark大数据分析 课件 1.1 大数据简介与相关技术.pptx
- Spark大数据分析 课件 1.2 Spark简介.pptx
- Spark大数据分析 课件 1.3 其他数据处理框架.pptx
- Spark大数据分析 课件 2.1 集群环境准备.pptx
- Spark大数据分析 课件 2.2 Spark环境搭建.pptx
- Spark大数据分析 课件 2.3 Spark运行架构与原理.pptx
- Spark大数据分析 课件 2.4 Spark Shell.pptx
- Spark大数据分析 课件 3.1 Scala简介.pptx
- Spark大数据分析 课件 3.2 Scala环境准备.pptx
- Spark大数据分析 课件 3.3 Scala基础语法.pptx
- Spark大数据分析 课件 4.4 RDD之间的依赖关系.pptx
- Spark大数据分析 课件 4.5 RDD机制.pptx
- Spark大数据分析 课件 4.6 统计每日新增用户.pptx
- Spark大数据分析 课件 5.1 Spark SQL简介.pptx
- Spark大数据分析 课件 5.2 DataFrames.pptx
- Spark大数据分析 课件 5.3 Spark SQL多数据源操作.pptx
- Spark大数据分析 课件 5.4 Spark SQL应用案例.pptx
- Spark大数据分析 课件 6.1 认识Spark Streaming.pptx
- Spark大数据分析 课件 6.2 DStream.pptx
- Spark大数据分析 课件 6.3 Spark Streaming应用案例.pptx
文档评论(0)