Azure数据工厂：数据清洗与转换使用映射数据流教程.docxVIP

下载本文档

1
0
约2.16万字
约 24页
2025-09-16 发布于辽宁
举报
版权申诉

Azure数据工厂：数据清洗与转换使用映射数据流教程.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE1

Azure数据工厂：数据清洗与转换使用映射数据流教程

1AzureDataFactory：数据清洗与转换：使用映射数据流

1.1简介

1.1.1数据流基础知识

在AzureDataFactory中，数据流是一种用于数据转换的无服务器计算服务。它允许你以图形化的方式设计数据转换逻辑，而无需编写复杂的代码。数据流可以处理各种数据类型，包括结构化、半结构化和非结构化数据，使其成为数据集成和ETL（提取、转换、加载）任务的理想选择。

数据流的执行是通过ApacheSpark在AzureDatabricks上进行的，这意味着它能够提供高性能的数据处理能力。数据流支持两种类型的数据转换：映射数据流和Wrangling数据流。映射数据流主要用于数据的转换和聚合，而Wrangling数据流则更侧重于数据清洗和重塑。

示例：使用映射数据流进行数据转换

假设我们有一个CSV文件，其中包含以下数据：

id,first_name,last_name,age,city

1,John,Doe,30,NewYork

2,Jane,Smith,25,LosAngeles

3,Bob,Johnson,40,Chicago

我们想要将这些数据转换为另一种格式，例如，将年龄字段乘以2，以表示“双倍年龄”，并添加一个新的字段“full_name”，将first_name和last_name合并。在AzureDataFactory中，我们可以使用映射数据流来实现这一目标。

创建数据流：在AzureDataFactory中，选择“数据流”并创建一个新的映射数据流。

添加源：将CSV文件作为源添加到数据流中。

添加转换：在数据流设计器中，添加一个“派生列”转换，以创建“full_name”和“double_age”字段。

配置派生列：在派生列转换中，配置新的字段如下：

full_name=first_name++last_name

double_age=age*2

添加接收器：将转换后的数据发送到一个接收器，例如，另一个CSV文件或数据库。

代码示例

虽然在数据流设计器中，你不需要编写代码，但下面是一个使用ApacheSparkSQL进行相同转换的示例代码，以帮助理解转换逻辑：

#加载数据

data=spark.read.format(csv).option(header,true).load(path/to/input.csv)

#创建新的字段

data=data.withColumn(full_name,concat(col(first_name),lit(),col(last_name)))\

.withColumn(double_age,col(age)*2)

#保存数据

data.write.format(csv).option(header,true).save(path/to/output.csv)

1.1.2数据流设计器简介

数据流设计器是AzureDataFactory中用于创建和编辑数据流的图形化界面。它提供了一个直观的拖放界面，使你能够轻松地添加数据源、转换和接收器，而无需编写代码。数据流设计器支持多种数据转换操作，包括但不限于：

派生列：用于创建新的字段或修改现有字段。

选择：用于选择或排除特定的字段。

过滤：用于基于条件过滤数据行。

聚合：用于对数据进行分组和聚合操作。

排序：用于对数据进行排序。

连接：用于连接来自不同源的数据。

使用数据流设计器进行数据清洗

数据清洗是数据预处理的重要步骤，它涉及识别和纠正数据中的错误和不一致性。在数据流设计器中，你可以使用多种工具来清洗数据，例如：

过滤：去除不符合条件的数据行。

派生列：修正或创建新的字段。

查找和替换：在Wrangling数据流中，查找并替换特定的值。

删除重复项：去除数据中的重复记录。

示例：使用数据流设计器去除重复记录

假设我们有一个包含重复记录的CSV文件，我们想要去除这些重复记录。在数据流设计器中，可以使用“选择”和“去重”转换来实现这一目标。

添加源：将CSV文件作为源添加到数据流中。

添加选择转换：选择你想要保留的字段。

添加去重转换：基于你选择的字段去除重复记录。

添加接收器：将清洗后的数据发送到一个接收器。

代码示例

下面是一个使用ApacheSpark去除重复记录的示例代码：

#加载数据

data=spark.read.format(csv).option(header,true).load(path/to/input.csv)

#去除重复记录

data=data.dropDuplic

您可能关注的文档

文档评论（0）

找工业软件教程找老陈 + 关注: 实名认证

服务提供商

寻找教程；翻译教程；题库提供；教程发布；计算机技术答疑；行业分析报告提供；

咨询作者（355人已咨询）已休息

1亿VIP精品文档

更多 >

Azure数据工厂：数据清洗与转换使用映射数据流教程.docxVIP