大数据工程师笔试题及参考答案.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据工程师笔试题及参考答案

一、选择题(每题5分,共30分)

下列关于HDFS的描述,错误的是()

A.HDFS采用主从架构,NameNode负责管理元数据

B.DataNode存储实际数据块,默认块大小为128MB

C.HDFS适合存储大量小文件,读写效率高

D.NameNode宕机后,可通过SecondaryNameNode恢复元数据

Spark中,下列哪个算子是宽依赖算子()

A.mapB.filterC.reduceByKeyD.flatMap

关于MapReduce的工作流程,正确的顺序是()

①Map阶段②Shuffle阶段③Reduce阶段④输入分片

A.④①②③B.①④②③C.④②①③D.①②④③

下列哪种数据库不属于NoSQL数据库()

A.MongoDBB.RedisC.MySQLD.Cassandra

Flink中用于保证exactly-once语义的核心机制是()

A.CheckpointB.WindowC.StateD.Watermark

大数据处理中,“数据倾斜”指的是()

A.数据存储在不同节点,分布不均衡

B.部分任务处理的数据量远大于其他任务

C.数据格式不统一,处理难度差异大

D.数据传输过程中出现丢包现象

二、填空题(每空3分,共30分)

Hadoop生态系统中,负责资源调度的组件是__________,负责数据仓库构建的组件是__________。

Spark的核心抽象是__________,它是一个不可变的、分布式的数据集。

Redis支持的五种数据结构分别是字符串、哈希、列表、和。

MapReduce中,Map任务的输出结果会先写入__________,再进行Shuffle操作。

Flink的时间语义包括事件时间、和。

数据仓库的三大特征是__________、__________和面向主题。

三、简答题(每题10分,共20分)

简述Spark与MapReduce的核心区别,以及Spark的优势所在。

什么是数据倾斜?在Spark任务中,常见的解决数据倾斜的方法有哪些?

四、实操题(20分)

现有一个用户行为日志文件,格式如下(每行一条记录,字段用制表符分隔):

用户ID行为类型行为时间商品ID

1001click2024-05-0110:05:30P001

1002buy2024-05-0111:20:15P002

1001collect2024-05-0114:30:00P003

1003click2024-05-0109:15:20P001

...

请使用SparkScala代码完成以下需求:

统计每个商品的点击量(行为类型为click);

筛选出2024年5月1日当天有购买行为(行为类型为buy)的用户ID列表,去重后输出。

参考答案

一、选择题

C(HDFS不适合小文件存储,大量小文件会占用NameNode元数据存储空间,降低读写效率)

C(宽依赖算子会导致Shuffle,reduceByKey属于宽依赖,其余为窄依赖)

A(MapReduce流程:输入分片→Map阶段→Shuffle阶段→Reduce阶段)

C(MySQL是关系型数据库,其余为NoSQL数据库)

A(Checkpoint机制通过快照实现exactly-once语义)

B(数据倾斜核心是任务负载不均,部分任务数据量过大)

二、填空题

YARN;Hive

RDD(弹性分布式数据集)

集合(Set);有序集合(SortedSet/ZSet)

本地磁盘(临时文件)

处理时间;摄入时间

不可变(只读);随时间变化(时间序列性)

三、简答题

核心区别:

数据处理模型:MapReduce采用“Map→Shuffle→Reduce”的两阶段模型,中间结果写入磁盘;Spark基于RDD,支持多阶段流水线处理,中间结果可缓存在内存。

迭代计算效率:MapReduce迭代任务需重复读写磁盘,效率低;Spark将中间结果缓存到内存,适合迭代计算(如机器学习算法)和交互式查询。

任务调度:MapReduce任务调度粒度粗,Spark支持更细粒度的任务调度和DAG优化。

Spark优势:处理速度快(内存计算)、支持多语言(Scala/Java/Python)、API更丰富(支持SQL、流处理

文档评论(0)

151****9429 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档