- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项不是HDFS(Hadoop分布式文件系统)的设计目标?
A.支持大文件存储
B.提供流式数据访问
C.对硬件故障具有容错性
D.保证低延迟数据访问
答案:D
解析:HDFS设计目标包括处理大文件(A正确)、适合流式数据访问(B正确)、通过副本机制容错(C正确)。低延迟访问是小文件实时处理场景的需求(如HBase),HDFS更关注高吞吐而非低延迟(D错误)。
以下哪种技术属于实时数据处理框架?
A.Hive
B.SparkRDD
C.Flink
D.MapReduce
答案:C
解析:Hive基于MapReduce实现离线计算(A错误);SparkRDD主要用于批处理(B错误);Flink是专门的流处理框架(C正确);MapReduce为离线批处理(D错误)。
数据清洗中处理“年龄字段出现-5”的问题属于:
A.缺失值处理
B.异常值处理
C.重复值处理
D.不一致值处理
答案:B
解析:年龄为负数不符合业务逻辑,属于异常值(B正确);缺失值指字段为空(A错误);重复值指记录重复(C错误);不一致值指格式或含义冲突(如“2023-02-30”日期错误)(D错误)。
数据仓库(DataWarehouse)的核心特性不包括:
A.面向主题
B.实时性
C.集成性
D.非易失性
答案:B
解析:数据仓库的核心特性是面向主题(A正确)、集成(C正确)、非易失(D正确);实时性是实时数仓或OLTP系统的特性(B错误)。
以下哪个工具用于Hadoop集群资源管理?
A.HDFS
B.YARN
C.HBase
D.ZooKeeper
答案:B
解析:YARN(YetAnotherResourceNegotiator)负责Hadoop集群的资源调度和管理(B正确);HDFS是存储(A错误);HBase是数据库(C错误);ZooKeeper是分布式协调服务(D错误)。
流处理中“窗口(Window)”的主要作用是:
A.限制数据传输带宽
B.将无限流划分为有限的处理单元
C.过滤无效数据
D.实现数据加密
答案:B
解析:流数据是无限的,窗口通过时间或事件数量将流划分为可处理的有限单元(B正确);限制带宽是流量控制(A错误);过滤是转换操作(C错误);加密是安全措施(D错误)。
以下哪种数据库属于列式存储?
A.MySQL
B.Redis
C.HBase
D.MongoDB
答案:C
解析:HBase基于HDFS实现列式存储(C正确);MySQL是关系型(行式)(A错误);Redis是键值(B错误);MongoDB是文档型(D错误)。
数据湖(DataLake)与数据仓库(DataWarehouse)的主要区别在于:
A.数据湖存储结构化数据,数据仓库存储非结构化数据
B.数据湖在存储时定义模式(Schema-on-Write),数据仓库在使用时定义模式(Schema-on-Read)
C.数据湖支持多类型数据存储,数据仓库以结构化数据为主
D.数据湖仅用于离线分析,数据仓库支持实时查询
答案:C
解析:数据湖可存储结构化、半结构化、非结构化数据(C正确);数据仓库以结构化为主(A错误);数据湖是Schema-on-Read(使用时定义模式),数据仓库是Schema-on-Write(存储时定义)(B错误);两者均支持离线和实时场景(D错误)。
以下哪项属于机器学习平台(如MLflow)的核心功能?
A.数据实时可视化
B.模型生命周期管理
C.分布式事务处理
D.网络流量监控
答案:B
解析:MLflow等平台主要管理模型训练、部署、监控的全生命周期(B正确);可视化是BI工具功能(A错误);事务处理是数据库功能(C错误);流量监控是运维工具(D错误)。
数据治理的核心目标是:
A.提高数据处理速度
B.确保数据质量与合规性
C.减少存储成本
D.优化查询性能
答案:B
解析:数据治理通过元数据管理、数据质量监控、权限控制等手段,保障数据的准确性、完整性、安全性和合规性(B正确);处理速度和查询性能是技术优化目标(A、D错误);存储成本是资源管理目标(C错误)。
二、多项选择题(共10题,每题2分,共20分)
以下属于Hadoop生态组件的有:
A.HDFS
B.YARN
C.Hive
D.Spark
答案:ABC
解析:Hadoop原生生态包括HDFS(存储)、YARN(资源管理)、Hive(数据仓库)(ABC正确);Spark是独立计算框架,虽可运行在YARN上但非Hadoop原生组件(D错误)。
Spark的核心特性包括:
A.基于内存计算,提升
您可能关注的文档
- 2025年健康管理师考试题库(附答案和详细解析)(1122).docx
- 2025年安全开发生命周期专家考试题库(附答案和详细解析)(1117).docx
- 2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1122).docx
- 2025年期货从业资格考试考试题库(附答案和详细解析)(1118).docx
- 2025年注册土木工程师考试题库(附答案和详细解析)(1118).docx
- 2025年注册家族财富管理师(CFWM)考试题库(附答案和详细解析)(1121).docx
- 2025年注册环境影响评价工程师考试题库(附答案和详细解析)(1118).docx
- 2025年算法工程师职业认证考试题库(附答案和详细解析)(1119).docx
- 2025年虚拟现实开发工程师考试题库(附答案和详细解析)(1117).docx
- 2025年证券从业资格考试考试题库(附答案和详细解析)(1109).docx
- 《2025年适老化家电规划:大字体冰箱智能趋势》.docx
- 小学音乐教学中音乐欣赏教育的实施策略课题报告教学研究课题报告.docx
- 生成式人工智能在主题式教研中促进学生综合素质发展的策略教学研究课题报告.docx
- 初中物理滑轮组绳索表面粗糙度对效率影响实验课题报告教学研究课题报告.docx
- 初中化学气体收集装置的绿色环保型学生创新能力培养课题报告教学研究课题报告.docx
- 2025年电池材料改性对充电安全提升效果.docx
- 2025年乡村旅游服务市场竞争力分析报告.docx
- 《2025年无人机农田确权报告:低空测绘标准规范》.docx
- 2025年智能照明系统电磁兼容性设计技术报告.docx
- 6A英语期末考前复习---易错题练习.docx
最近下载
- DBJ04_T 282-2025 行道树栽植技术规程.docx
- 遥感图像的计算机分类.pptx VIP
- 儿童过敏风湿免疫性疾病诊治新进展题库答案-2025年华医网继续教育.docx VIP
- +Unit+8+词汇+短语课件+2024-2025学年沪教版(2024)七年级英语上册.pptx VIP
- 液压挖掘机工作装置结构设计及动臂的仿真分析.docx VIP
- +Unit6+words+词汇课件2024-2025学年沪教版(2024)英语七年级上册.pptx VIP
- +Unit+6+词汇课件-2024-2025学年沪教版(2024)七年级英语上册.pptx VIP
- Unit 5 Off to space 单元测试卷(含答案)沪教版(2024)七年级英语上册.pdf VIP
- +Unit+5+写作课件2024-2025学年沪教牛津版(2024)七年级英语上册.pptx VIP
- 2025年华医网基础机能癫痫与神经电生理的研究进展题库答案.docx VIP
有哪些信誉好的足球投注网站
文档评论(0)