- 1、本文档共48页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第4章房产大数据分析与探索
某房产公司销售人员业绩分析第一部分数据集处理数据操作分析
情境导入员工业绩考核分析是企业工作总结的重要组成部分。从业绩分析中员工可以清楚的知道自己的工作应该达到何种标准,发现自己的工作长处和不足,激发工作的积极性。管理者可以清楚的了解员工的工作情况,通过分析不足,帮助员工改进、提高业绩,促进企业的发展进步。假设现有某房产公司一个部门员工的某年销售业绩数据,请帮助部门经理对其进行统计分析,获取相关信息。
学习目标和要求1、掌握将数据构建为RDD的方法。2、能使用RDD的各种转换和行动操作对数据集进行处理分析。3、会对处理完成的数据进行存储操作。
数据集处理在Spark中最核心最基础的概念是弹性分布式数据集(ResilientDistributedDatasets,RDD)。它是一种分布式的内存抽象,可以基于任何数据结构进行创建。创建RDD的方法有两种,一种是基于内存(集合)创建RDD,另一种是从外部数据集创建。
1、基于内存(集合)创建RDD。从集合中创建RDD,主要提供了两个方法:使用SparkContext类中的parallelize和makeRDD两个方法。数据集处理(1)parallelize方法创建RDD此方法有两个参数可以输入,第一个参数用来接收一个集合。第二个参数是可选的,用于指定创建的RDD的分区数。
(2)makeRDD方法创建RDDmakeRDD方法和parallelize方法类似,但它可以指定每个分区的首选位置。数据集处理
2、从外部存储数据构造RDD数据集处理读取一个放在文件系统中的数据进行创建RDD。从本地文件创建,主要用于测试;使用HDFS文件获取外部数据集创建,实践操作中最常用。通过调用SparkContext的textFile方法读取数据集。调用命令如下:textFile(/my/directory)textFile(/my/directory/*.txt)textFile(/my/directory/*.gz)
(1)加载HDFS上存储的CSV文件构造一个RDD数据集处理从HDFS中的数据创建RDD,首先需要定义文件在HDFS上存储的路径,然后根据路径使用sc.textFile()方法进行创建。//定义HDFS上test.csv文件的存储路径valHDFSfile=/Chapter4/test.csv//使用textFile方法,加载文件并构造RDDvalHDFSrdd=sc.textFile(HDFSfile)//查看返回值HDFSrdd.collect()
(2)加载本地Linux中的文件构造一个RDD数据集处理读取本地Linux中的文件构造RDD也是通过sc.textFile(path)的方法,在path路径前面加上“file:///”表示从本地文件系统读取数据。
3、操作练习——构建员工业绩RDD数据集处理(1)上传数据集到HDFS文件系统中。(2)从HDFS文件系统中读取文件并创建RDD。
数据操作分析1、RDD支持的两种操作。(1)转换操作:就是对RDD中的数据进行各种转换。方法名称作用map将RDD中的每一个数据元素通过func函数转换,返回新的RDD。flatmap首先将map方法应用于RDD的所有元素,然后将结果扁平化拆分,返回一个新的RDD。sortby通过指定条件对RDD中的元素进行排序。filter通过指定条件对RDD中的元素进行过滤。distinct对RDD中的所有元素去重,返回一个去重后的RDD。union将两个RDD进行合并,返回合并后的数据集。keys返回PairRDD中的“键”形成的新的RDD。values返回PairRDD中的“值”形成的新的RDD。reducebykey对“键”相同的值使用指定的函数进行聚合操作。groupbykey对“键”相同的值根据指定条件进行分组。sortbykey根据“键”对RDD内部的元素进行排序。join根据“键”对两个RDD进行连接。
数据操作分析(2)行动操作:RDD的行动操作则是向驱动器程序返回结果或者把结果写入外部系统的操作,会触发实际的计算方法名称作用count返回RDD中元素的个数。take返回RDD中前n个元素值。first返回RDD中第一个元素值。collect返回RDD中所有元素的列表。top返回RDD中排名前n的元素值。
数据操作分析2、统计部门人员人数。count()行动操作,返回的是RDD内元素的个数。举例:利用序列Seq(1,2,3,4,5,6)创建的rdd中有6个数字元素操作练习:统计部门人员人数
数据操作分
您可能关注的文档
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训1 Hadoop集群环境搭建.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训2 Spark集群部署与使用.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训3 Scala基础(一).docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训4 Scala基础(二).docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训6 售房网站的销售房屋情况.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训7 电商大数据分析与探索.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训8 某化妆品在线商店的客户行为数据分析.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训9 Zepplin安装部署与使用.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单 实训10 Zepplin数据可视化案例分析.docx
- 大数据分析及应用项目教程(Spark SQL)(微课版) 实训单汇总 许慧 实训1--10 Hadoop集群环境搭建--- Zepplin数据可视化案例分析.docx
最近下载
- 雅马哈s03使用说明书.pdf VIP
- 一种从荧光粉废料中回收高纯度钇铕的制备方法.doc.doc
- 部编版语文二年级上册第六单元教材解读大单元集体备课.pptx VIP
- 压实度(灌砂法)试验检测报告.docx
- 2022年地理高考真题深度剖析之自然灾害1老教材公开课.docx VIP
- 生物法还原高浓度高氯酸盐动力学及反应条件的优化.pdf
- 妇产科常见危急重症早期识别、初步处置原则和转诊时期专家讲座.pptx
- 一种多应力加速寿命试验耦合效应分析及寿命预测方法.pdf VIP
- 医疗器械软件产品相关文档模板汇总(软件描述文档模板、软件网络安全描述模板、软件开发文档等).pdf VIP
- 火电厂工艺办法流程.ppt
文档评论(0)