- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
PAGE1
PAGE1
Azure数据工厂:数据清洗与转换使用映射数据流教程
1AzureDataFactory:数据清洗与转换:使用映射数据流
1.1简介
1.1.1数据流基础知识
在AzureDataFactory中,数据流是一种用于数据转换的无服务器计算服务。它允许你以图形化的方式设计数据转换逻辑,而无需编写复杂的代码。数据流可以处理各种数据类型,包括结构化、半结构化和非结构化数据,使其成为数据集成和ETL(提取、转换、加载)任务的理想选择。
数据流的执行是通过ApacheSpark在AzureDatabricks上进行的,这意味着它能够提供高性能的数据处理能力。数据流支持两种类型的数据转换:映射数据流和Wrangling数据流。映射数据流主要用于数据的转换和聚合,而Wrangling数据流则更侧重于数据清洗和重塑。
示例:使用映射数据流进行数据转换
假设我们有一个CSV文件,其中包含以下数据:
id,first_name,last_name,age,city
1,John,Doe,30,NewYork
2,Jane,Smith,25,LosAngeles
3,Bob,Johnson,40,Chicago
我们想要将这些数据转换为另一种格式,例如,将年龄字段乘以2,以表示“双倍年龄”,并添加一个新的字段“full_name”,将first_name和last_name合并。在AzureDataFactory中,我们可以使用映射数据流来实现这一目标。
创建数据流:在AzureDataFactory中,选择“数据流”并创建一个新的映射数据流。
添加源:将CSV文件作为源添加到数据流中。
添加转换:在数据流设计器中,添加一个“派生列”转换,以创建“full_name”和“double_age”字段。
配置派生列:在派生列转换中,配置新的字段如下:
full_name=first_name++last_name
double_age=age*2
添加接收器:将转换后的数据发送到一个接收器,例如,另一个CSV文件或数据库。
代码示例
虽然在数据流设计器中,你不需要编写代码,但下面是一个使用ApacheSparkSQL进行相同转换的示例代码,以帮助理解转换逻辑:
#加载数据
data=spark.read.format(csv).option(header,true).load(path/to/input.csv)
#创建新的字段
data=data.withColumn(full_name,concat(col(first_name),lit(),col(last_name)))\
.withColumn(double_age,col(age)*2)
#保存数据
data.write.format(csv).option(header,true).save(path/to/output.csv)
1.1.2数据流设计器简介
数据流设计器是AzureDataFactory中用于创建和编辑数据流的图形化界面。它提供了一个直观的拖放界面,使你能够轻松地添加数据源、转换和接收器,而无需编写代码。数据流设计器支持多种数据转换操作,包括但不限于:
派生列:用于创建新的字段或修改现有字段。
选择:用于选择或排除特定的字段。
过滤:用于基于条件过滤数据行。
聚合:用于对数据进行分组和聚合操作。
排序:用于对数据进行排序。
连接:用于连接来自不同源的数据。
使用数据流设计器进行数据清洗
数据清洗是数据预处理的重要步骤,它涉及识别和纠正数据中的错误和不一致性。在数据流设计器中,你可以使用多种工具来清洗数据,例如:
过滤:去除不符合条件的数据行。
派生列:修正或创建新的字段。
查找和替换:在Wrangling数据流中,查找并替换特定的值。
删除重复项:去除数据中的重复记录。
示例:使用数据流设计器去除重复记录
假设我们有一个包含重复记录的CSV文件,我们想要去除这些重复记录。在数据流设计器中,可以使用“选择”和“去重”转换来实现这一目标。
添加源:将CSV文件作为源添加到数据流中。
添加选择转换:选择你想要保留的字段。
添加去重转换:基于你选择的字段去除重复记录。
添加接收器:将清洗后的数据发送到一个接收器。
代码示例
下面是一个使用ApacheSpark去除重复记录的示例代码:
#加载数据
data=spark.read.format(csv).option(header,true).load(path/to/input.csv)
#去除重复记录
data=data.dropDuplic
您可能关注的文档
- Amazon S3:S3事件通知与监控技术教程.docx
- Amazon S3:S3数据安全与加密.docx
- Amazon S3:S3性能优化与成本控制.docx
- Amazon S3:S3智能分层存储教程.docx
- AmazonS3:AmazonS3简介与核心概念.docx
- Anaconda:NumPy数组操作教程.docx
- Anaconda:Python基础语法教程.docx
- Anaconda:Scikit-learn机器学习基础教程.docx
- Anaconda:机器学习项目实战.docx
- Anaconda:深度学习项目实战.docx
- Azure数据工厂:与Azure机器学习的集成教程.docx
- Azure数据工厂:与Power BI的连接与数据可视化教程.docx
- Bokeh(Python库):Bokeh多图布局与嵌套.docx
- Bokeh(Python库):Bokeh服务器与应用程序部署.docx
- Bokeh(Python库):Bokeh高级绘图技巧.docx
- Bokeh(Python库):Bokeh工具栏和注释使用教程.docx
- Bokeh(Python库):Bokeh基本绘图元素讲解.docx
- Bokeh(Python库):Bokeh交互式图表创建.docx
- Bokeh(Python库):Bokeh流数据可视化实践.docx
- Bokeh(Python库):Bokeh模型和模型系统介绍.docx
文档评论(0)