- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大数据技术与应用考试试题及答案
一、单项选择题(每题2分,共20分)
1.以下哪项不属于大数据4V特征?
A.Volume(大量)
B.Velocity(高速)
C.Value(价值)
D.Variability(多变)
答案:D(注:标准4V特征为Volume、Velocity、Variety、Value,Variability属于扩展特征)
2.分布式文件系统HDFS中,默认数据块大小为?
A.32MB
B.64MB
C.128MB
D.256MB
答案:C(HDFS默认块大小自Hadoop2.x起调整为128MB,用于降低NameNode内存压力)
3.Spark中用于缓存RDD数据的持久化级别“MEMORY_AND_DISK”表示?
A.仅内存存储,不足时丢弃
B.内存存储,不足时溢写磁盘
C.磁盘存储为主,内存缓存部分
D.内存与磁盘各存储一份
答案:B(该级别优先使用内存,内存不足时将未缓存的数据写入磁盘)
4.实时数据流处理框架Flink中,事件时间(EventTime)的语义是基于?
A.数据生成的时间戳
B.数据进入处理系统的时间
C.数据完成处理的时间
D.用户自定义的时间标签
答案:A(事件时间指数据实际产生的时间,由数据本身携带的时间戳决定)
5.数据仓库(DataWarehouse)的核心特性不包括?
A.面向主题
B.实时更新
C.集成性
D.历史数据存储
答案:B(数据仓库通常为批量更新,实时性要求低于数据湖或实时数据库)
6.以下哪种技术常用于解决大数据的“冷启动”问题?
A.协同过滤推荐
B.基于内容的推荐
C.矩阵分解
D.逻辑回归
答案:B(基于内容的推荐不依赖用户历史行为,适合新用户或新物品的冷启动场景)
7.大数据平台中,ZooKeeper的主要功能是?
A.分布式协调服务
B.实时数据计算
C.海量数据存储
D.资源调度管理
答案:A(ZooKeeper提供分布式系统的配置管理、集群协调、选举等核心服务)
8.数据清洗过程中,处理“年龄字段出现-5”的问题属于?
A.缺失值处理
B.异常值处理
C.重复值处理
D.格式标准化
答案:B(年龄为负数属于逻辑错误的异常值,需修正或删除)
9.以下哪项是NoSQL数据库的典型应用场景?
A.银行交易记录存储(强事务需求)
B.社交平台用户动态存储(高并发写)
C.企业ERP系统数据管理(复杂查询)
D.政府统计报表数据存储(结构化查询)
答案:B(NoSQL适合高并发、非结构化或半结构化数据的快速读写,如社交动态)
10.大数据隐私保护中,“K-匿名”技术的核心目标是?
A.确保数据不可追溯到具体个体
B.加密敏感字段
C.限制数据访问权限
D.模糊处理数值型数据
答案:A(K-匿名通过泛化或抑制数据,使至少K个个体具有相同的标识属性,防止身份泄露)
二、填空题(每题2分,共20分)
1.大数据处理的典型架构可分为数据采集层、________、存储计算层、分析应用层。
答案:数据清洗/预处理层
2.Hadoop生态中,负责资源调度与管理的组件是________。
答案:YARN(YetAnotherResourceNegotiator)
3.Spark的核心抽象是________,其具有不可变、可分区、容错性等特性。
答案:RDD(弹性分布式数据集)
4.实时计算中,Flink的窗口类型主要包括时间窗口、计数窗口和________。
答案:会话窗口(SessionWindow)
5.数据湖(DataLake)与数据仓库的主要区别在于数据存储的________(填“结构化”或“非结构化”)。
答案:非结构化(数据湖支持多类型数据,数据仓库以结构化为主)
6.机器学习中,用于评估分类模型性能的常用指标包括准确率、召回率和________。
答案:F1分数(或精确率、AUC-ROC等,需对应分类场景)
7.分布式数据库HBase的底层存储依赖________文件系统。
答案:HDFS(Hadoop分布式文件系统)
8.数据脱敏技术中,将“身份证号”替换为“”的方法属于________。
答案:掩码(或遮盖、脱敏)
9.流批一体架构中,________(填技术名称)通过统一的API支持实时流处理与离线
有哪些信誉好的足球投注网站
文档评论(0)