2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1114).docxVIP

2025年大数据工程师职业资格认证考试题库(附答案和详细解析)(1114).docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据工程师职业资格认证考试试卷

一、单项选择题(共10题,每题1分,共10分)

以下哪项是Hadoop分布式文件系统(HDFS)的默认块大小?

A.32MB

B.64MB

C.128MB

D.256MB

答案:C

解析:HDFS设计用于存储大文件,默认块大小在Hadoop2.x及以上版本中为128MB(早期版本为64MB),该设计减少了元数据管理开销并提升了数据传输效率。错误选项中,A为早期部分系统默认值,B为Hadoop1.x默认值,D为部分企业自定义配置值。

Spark的核心抽象是()?

A.DataFrame

B.Dataset

C.RDD(弹性分布式数据集)

D.DataSet[Row]

答案:C

解析:RDD(ResilientDistributedDatasets)是Spark的核心数据抽象,支持分布式计算、容错和惰性求值。DataFrame和Dataset是RDD的高级封装,本质基于RDD实现,因此C为正确选项。

以下哪项不属于Flink的时间类型?

A.事件时间(EventTime)

B.处理时间(ProcessingTime)

C.摄入时间(IngestionTime)

D.窗口时间(WindowTime)

答案:D

解析:Flink定义了三种时间类型:事件时间(数据生成的实际时间)、处理时间(数据被处理的系统时间)、摄入时间(数据进入Flink的时间)。窗口时间是基于前三者定义的计算逻辑,并非独立时间类型,因此D错误。

Kafka消息队列的主要设计目标是()?

A.高吞吐、低延迟、持久化

B.强一致性、高可用

C.实时计算、状态管理

D.结构化查询、事务支持

答案:A

解析:Kafka作为分布式消息队列,核心设计目标是处理大规模实时数据流,强调高吞吐(每秒百万级消息)、低延迟(毫秒级)和持久化存储(基于磁盘日志)。B是分布式数据库目标,C是流计算框架目标,D是关系型数据库目标,故A正确。

HBase的存储模型属于()?

A.键值存储(Key-Value)

B.列族存储(ColumnFamily)

C.文档存储(Document)

D.图存储(Graph)

答案:B

解析:HBase基于GoogleBigtable设计,采用列族(ColumnFamily)存储模型,数据按行键(RowKey)排序,同一列族的列存储在一起。键值存储如Redis,文档存储如MongoDB,图存储如Neo4j,故B正确。

数据倾斜(DataSkew)的典型表现是()?

A.部分任务执行时间远长于其他任务

B.所有任务执行时间均匀

C.内存占用率持续低于阈值

D.数据写入延迟稳定

答案:A

解析:数据倾斜指数据在分布式计算中分布不均,导致部分分区数据量过大,对应任务处理时间显著延长。B是理想情况,C和D与数据倾斜无关,故A正确。

数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别是()?

A.数据湖存储结构化数据,数据仓库存储非结构化数据

B.数据湖采用Schema-on-Write,数据仓库采用Schema-on-Read

C.数据湖支持多类型数据,数据仓库聚焦结构化数据

D.数据湖仅用于离线分析,数据仓库支持实时查询

答案:C

解析:数据湖支持结构化、半结构化、非结构化等多类型数据(如日志、图片、文本),采用Schema-on-Read(读取时定义模式);数据仓库聚焦结构化数据(如关系型数据库表),采用Schema-on-Write(写入时定义模式)。A、B、D均描述错误,C正确。

特征工程中,对类别型特征“性别(男/女)”进行编码时,最适合的方法是()?

A.独热编码(One-HotEncoding)

B.标签编码(LabelEncoding)

C.目标编码(TargetEncoding)

D.二进制编码(BinaryEncoding)

答案:A

解析:类别型特征无顺序关系时(如性别),独热编码通过创建虚拟变量避免模型误判顺序,是最常用方法。标签编码(将类别映射为数值)适用于有序特征(如学历),目标编码依赖目标变量易过拟合,二进制编码适用于高基数类别,故A正确。

以下哪项属于数据脱敏(DataMasking)的不可逆方法?

A.替换(如将“138****1234”替换手机号)

B.随机化(如将真实年龄随机加减5岁)

C.加密(如AES加密身份证号)

D.匿名化(如删除用户姓名、身份证号)

答案:D

解析:数据脱敏分为可逆(如加密、替换)和不可逆(如匿名化)。匿名化通过删除或模糊关键标识(如姓名、身份证号)使数据无法关联到真实个体,无法还原;替换、随机化、加密均可通过密钥或规则还原

文档评论(0)

MenG + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档