大数据工程师笔试题及参考答案.docxVIP

下载本文档

1
0
约3.52千字
约 5页
2025-11-24 发布于河北
举报
版权申诉

大数据工程师笔试题及参考答案.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据工程师笔试题及参考答案

一、选择题（每题5分，共30分）

下列关于HDFS的描述，错误的是（）

A.HDFS采用主从架构，NameNode负责管理元数据

B.DataNode存储实际数据块，默认块大小为128MB

C.HDFS适合存储大量小文件，读写效率高

D.NameNode宕机后，可通过SecondaryNameNode恢复元数据

Spark中，下列哪个算子是宽依赖算子（）

A.mapB.filterC.reduceByKeyD.flatMap

关于MapReduce的工作流程，正确的顺序是（）

①Map阶段②Shuffle阶段③Reduce阶段④输入分片

A.④①②③B.①④②③C.④②①③D.①②④③

下列哪种数据库不属于NoSQL数据库（）

A.MongoDBB.RedisC.MySQLD.Cassandra

Flink中用于保证exactly-once语义的核心机制是（）

A.CheckpointB.WindowC.StateD.Watermark

大数据处理中，“数据倾斜”指的是（）

A.数据存储在不同节点，分布不均衡

B.部分任务处理的数据量远大于其他任务

C.数据格式不统一，处理难度差异大

D.数据传输过程中出现丢包现象

二、填空题（每空3分，共30分）

Hadoop生态系统中，负责资源调度的组件是__________，负责数据仓库构建的组件是__________。

Spark的核心抽象是__________，它是一个不可变的、分布式的数据集。

Redis支持的五种数据结构分别是字符串、哈希、列表、和。

MapReduce中，Map任务的输出结果会先写入__________，再进行Shuffle操作。

Flink的时间语义包括事件时间、和。

数据仓库的三大特征是__________、__________和面向主题。

三、简答题（每题10分，共20分）

简述Spark与MapReduce的核心区别，以及Spark的优势所在。

什么是数据倾斜？在Spark任务中，常见的解决数据倾斜的方法有哪些？

四、实操题（20分）

现有一个用户行为日志文件，格式如下（每行一条记录，字段用制表符分隔）：

用户ID行为类型行为时间商品ID

1001click2024-05-0110:05:30P001

1002buy2024-05-0111:20:15P002

1001collect2024-05-0114:30:00P003

1003click2024-05-0109:15:20P001

...

请使用SparkScala代码完成以下需求：

统计每个商品的点击量（行为类型为click）；

筛选出2024年5月1日当天有购买行为（行为类型为buy）的用户ID列表，去重后输出。

参考答案

一、选择题

C（HDFS不适合小文件存储，大量小文件会占用NameNode元数据存储空间，降低读写效率）

C（宽依赖算子会导致Shuffle，reduceByKey属于宽依赖，其余为窄依赖）

A（MapReduce流程：输入分片→Map阶段→Shuffle阶段→Reduce阶段）

C（MySQL是关系型数据库，其余为NoSQL数据库）

A（Checkpoint机制通过快照实现exactly-once语义）

B（数据倾斜核心是任务负载不均，部分任务数据量过大）

二、填空题

YARN；Hive

RDD（弹性分布式数据集）

集合（Set）；有序集合（SortedSet/ZSet）

本地磁盘（临时文件）

处理时间；摄入时间

不可变（只读）；随时间变化（时间序列性）

三、简答题

核心区别：

数据处理模型：MapReduce采用“Map→Shuffle→Reduce”的两阶段模型，中间结果写入磁盘；Spark基于RDD，支持多阶段流水线处理，中间结果可缓存在内存。

迭代计算效率：MapReduce迭代任务需重复读写磁盘，效率低；Spark将中间结果缓存到内存，适合迭代计算（如机器学习算法）和交互式查询。

任务调度：MapReduce任务调度粒度粗，Spark支持更细粒度的任务调度和DAG优化。

Spark优势：处理速度快（内存计算）、支持多语言（Scala/Java/Python）、API更丰富（支持SQL、流处理

您可能关注的文档

文档评论（0）

151****9429 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

大数据工程师笔试题及参考答案.docxVIP