- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
大数据工程师职业资格认证考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是Hadoop分布式文件系统(HDFS)的默认块大小?
A.32MB
B.64MB
C.128MB
D.256MB
答案:C
解析:HDFS设计用于存储大文件,默认块大小在Hadoop2.x及以上版本中为128MB(早期版本为64MB),该设计减少了元数据管理开销并提升了数据传输效率。错误选项中,A为早期部分系统默认值,B为Hadoop1.x默认值,D为部分企业自定义配置值。
Spark的核心抽象是()?
A.DataFrame
B.Dataset
C.RDD(弹性分布式数据集)
D.DataSet[Row]
答案:C
解析:RDD(ResilientDistributedDatasets)是Spark的核心数据抽象,支持分布式计算、容错和惰性求值。DataFrame和Dataset是RDD的高级封装,本质基于RDD实现,因此C为正确选项。
以下哪项不属于Flink的时间类型?
A.事件时间(EventTime)
B.处理时间(ProcessingTime)
C.摄入时间(IngestionTime)
D.窗口时间(WindowTime)
答案:D
解析:Flink定义了三种时间类型:事件时间(数据生成的实际时间)、处理时间(数据被处理的系统时间)、摄入时间(数据进入Flink的时间)。窗口时间是基于前三者定义的计算逻辑,并非独立时间类型,因此D错误。
Kafka消息队列的主要设计目标是()?
A.高吞吐、低延迟、持久化
B.强一致性、高可用
C.实时计算、状态管理
D.结构化查询、事务支持
答案:A
解析:Kafka作为分布式消息队列,核心设计目标是处理大规模实时数据流,强调高吞吐(每秒百万级消息)、低延迟(毫秒级)和持久化存储(基于磁盘日志)。B是分布式数据库目标,C是流计算框架目标,D是关系型数据库目标,故A正确。
HBase的存储模型属于()?
A.键值存储(Key-Value)
B.列族存储(ColumnFamily)
C.文档存储(Document)
D.图存储(Graph)
答案:B
解析:HBase基于GoogleBigtable设计,采用列族(ColumnFamily)存储模型,数据按行键(RowKey)排序,同一列族的列存储在一起。键值存储如Redis,文档存储如MongoDB,图存储如Neo4j,故B正确。
数据倾斜(DataSkew)的典型表现是()?
A.部分任务执行时间远长于其他任务
B.所有任务执行时间均匀
C.内存占用率持续低于阈值
D.数据写入延迟稳定
答案:A
解析:数据倾斜指数据在分布式计算中分布不均,导致部分分区数据量过大,对应任务处理时间显著延长。B是理想情况,C和D与数据倾斜无关,故A正确。
数据湖(DataLake)与数据仓库(DataWarehouse)的核心区别是()?
A.数据湖存储结构化数据,数据仓库存储非结构化数据
B.数据湖采用Schema-on-Write,数据仓库采用Schema-on-Read
C.数据湖支持多类型数据,数据仓库聚焦结构化数据
D.数据湖仅用于离线分析,数据仓库支持实时查询
答案:C
解析:数据湖支持结构化、半结构化、非结构化等多类型数据(如日志、图片、文本),采用Schema-on-Read(读取时定义模式);数据仓库聚焦结构化数据(如关系型数据库表),采用Schema-on-Write(写入时定义模式)。A、B、D均描述错误,C正确。
特征工程中,对类别型特征“性别(男/女)”进行编码时,最适合的方法是()?
A.独热编码(One-HotEncoding)
B.标签编码(LabelEncoding)
C.目标编码(TargetEncoding)
D.二进制编码(BinaryEncoding)
答案:A
解析:类别型特征无顺序关系时(如性别),独热编码通过创建虚拟变量避免模型误判顺序,是最常用方法。标签编码(将类别映射为数值)适用于有序特征(如学历),目标编码依赖目标变量易过拟合,二进制编码适用于高基数类别,故A正确。
以下哪项属于数据脱敏(DataMasking)的不可逆方法?
A.替换(如将“138****1234”替换手机号)
B.随机化(如将真实年龄随机加减5岁)
C.加密(如AES加密身份证号)
D.匿名化(如删除用户姓名、身份证号)
答案:D
解析:数据脱敏分为可逆(如加密、替换)和不可逆(如匿名化)。匿名化通过删除或模糊关键标识(如姓名、身份证号)使数据无法关联到真实个体,无法还原;替换、随机化、加密均可通过密钥或规则还原
您可能关注的文档
- 区块链技术支持的供应链信用体系构建.docx
- 人脸识别场景下的最小可行替代方案.docx
- 软件工程试题及解析.doc
- 社会责任题库及答案.doc
- 生态系统服务价值动态评估模型.docx
- 时间序列分析在价格稳定研究中的应用.docx
- 太阳能光伏协议.docx
- 未来计算题库及答案.doc
- 文化传承协议.docx
- 文化活动执行合同.docx
- 基于物联网的分布式光纤火灾预警系统研究.docx
- 2025年乡村产业融合报告:旅游农业文化协同发展研究.docx
- 2026-2031年中国字符汉字显示终端行业市场现状供需分析及投资评估规划分析研究报告.docx
- 2025-2026学年初中英语七年级下册(2024)沪教版(五四学制)(2024)教学设计合集.docx
- 无机化学反应生产工初级设备操作面试题.docx
- 2025年大学基因工程试题及答案.doc
- 2025年智能巡检机器人在新能源汽车电池管理系统故障诊断报告.docx
- 储能电站项目初步设计.docx
- 2025年大数据分析行业应用趋势白皮书.docx
- 2025年AI绘画工具在建筑设计行业虚拟漫游创作.docx
有哪些信誉好的足球投注网站
文档评论(0)