2025年必威体育精装版公需科目《大数据》考试题库(含参考答案).docxVIP

2025年必威体育精装版公需科目《大数据》考试题库(含参考答案).docx

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年必威体育精装版公需科目《大数据》考试题库(含参考答案)

一、单项选择题(每题2分,共30分)

1.以下哪项不属于大数据的“5V”特征?

A.Volume(大量)

B.Value(价值)

C.Velocity(高速)

D.Validity(有效性)

答案:D

2.分布式文件系统HDFS的核心设计目标是?

A.支持小文件高效存储

B.保证强一致性

C.处理海量数据的可靠存储与高吞吐访问

D.实现实时数据处理

答案:C

3.以下哪种技术属于流处理框架?

A.HadoopMapReduce

B.ApacheSparkStreaming

C.Hive

D.HBase

答案:B

4.数据清洗中处理缺失值的常用方法不包括?

A.删除含缺失值的记录

B.用均值/中位数填充

C.用随机数填充

D.基于模型预测填充

答案:C

5.NoSQL数据库与关系型数据库的主要区别在于?

A.支持SQL查询

B.强调ACID特性

C.适用于非结构化或半结构化数据

D.采用二维表存储

答案:C

6.大数据分析中,“关联规则挖掘”属于以下哪类任务?

A.分类

B.聚类

C.预测分析

D.描述性分析

答案:D

7.以下哪项是数据可视化的核心目的?

A.让数据看起来更美观

B.辅助用户发现数据中的模式与趋势

C.替代数据分析报告

D.提高数据存储效率

答案:B

8.差分隐私技术的核心思想是?

A.完全匿名化数据

B.通过添加噪声使个体数据不可识别

C.加密所有数据字段

D.限制数据访问权限

答案:B

9.以下哪个工具主要用于大数据的交互式查询分析?

A.ApacheFlink

B.ApacheHive

C.ApacheKafka

D.ApacheZookeeper

答案:B

10.智慧城市中,大数据技术的典型应用不包括?

A.交通拥堵预测

B.垃圾清运路线优化

C.居民身份证信息实时更新

D.空气质量监测与预警

答案:C

11.以下哪项属于大数据采集的“主动式”方法?

A.传感器自动上传环境数据

B.用户填写在线问卷

C.爬取公开网页数据

D.数据库日志自动记录

答案:B

12.机器学习中,“过拟合”现象是指模型?

A.在训练集上表现差,在测试集上表现好

B.在训练集上表现好,在测试集上表现差

C.无法处理高维数据

D.训练时间过长

答案:B

13.数据湖(DataLake)与数据仓库(DataWarehouse)的主要区别在于?

A.数据湖存储结构化数据,数据仓库存储非结构化数据

B.数据湖在存储时不进行预处理,数据仓库需提前建模

C.数据湖仅支持批处理,数据仓库支持流处理

D.数据湖成本更高,数据仓库成本更低

答案:B

14.以下哪项是HadoopYARN的核心功能?

A.分布式文件存储

B.资源管理与任务调度

C.实时数据处理

D.数据清洗

答案:B

15.大数据安全的核心挑战不包括?

A.数据泄露风险

B.海量数据存储成本

C.隐私保护与数据利用的平衡

D.恶意数据篡改

答案:B

二、多项选择题(每题3分,共30分)

1.大数据的“5V”特征包括()。

A.Volume(大量)

B.Velocity(高速)

C.Variety(多样)

D.Value(价值)

E.Veracity(真实)

答案:ABCDE

2.分布式计算框架ApacheSpark的组件包括()。

A.SparkCore

B.SparkSQL

C.SparkStreaming

D.MLlib(机器学习库)

E.GraphX(图计算)

答案:ABCDE

3.数据清洗的主要步骤包括()。

A.缺失值处理

B.异常值检测与修正

C.数据去重

D.数据标准化

E.数据格式转换

答案:ABCDE

4.隐私计算的主要技术包括()。

A.联邦学习

B.安全多方计算

C.同态加密

D.差分隐私

E.数据脱敏

答案:ABCDE

5.以下属于NoSQL数据库类型的有()。

A.键值存储(如Redis)

您可能关注的文档

文档评论(0)

yclsb001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档