2025继续教育公需科目大数据技术及应用试题及答案.docxVIP

下载本文档

1
0
约9.18千字
约 25页
2025-11-27 发布于广东
举报
版权申诉

2025继续教育公需科目大数据技术及应用试题及答案.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025继续教育公需科目大数据技术及应用试题及答案

一、单项选择题（每题2分，共40分）

1.以下哪项不属于大数据的“4V”特征？

A.Volume（大量）

B.Variety（多样）

C.Value（价值）

D.Veracity（真实）

答案：D（注：标准4V特征为Volume、Velocity、Variety、Value，Veracity是部分扩展定义中的第5V）

2.以下哪种工具常用于实时数据采集？

A.Flume

B.Sqoop

C.Kafka

D.Hive

答案：C（Kafka是高吞吐量的分布式消息队列，适合实时数据流采集；Flume侧重日志采集，Sqoop用于关系型数据库与Hadoop间的批量迁移，Hive是数据仓库工具）

3.分布式文件系统HDFS的默认块大小是？

A.32MB

B.64MB

C.128MB

D.256MB

答案：C（HDFS2.x及以上版本默认块大小为128MB，早期版本为64MB）

4.Spark的核心抽象是？

A.RDD（弹性分布式数据集）

B.DataFrame

C.Dataset

D.DStream

答案：A（RDD是Spark的基础数据结构，支持容错和并行操作，其他选项为RDD的高级封装）

5.以下哪种算法属于监督学习？

A.K-means聚类

B.决策树分类

C.关联规则挖掘（Apriori）

D.主成分分析（PCA）

答案：B（监督学习需要标签数据，决策树用于分类或回归；K-means、Apriori、PCA均为无监督学习）

6.数据湖（DataLake）与数据仓库（DataWarehouse）的主要区别是？

A.数据湖存储结构化数据，数据仓库存储非结构化数据

B.数据湖在存储时不定义模式（Schema-on-Read），数据仓库在存储前定义模式（Schema-on-Write）

C.数据湖仅用于离线分析，数据仓库支持实时分析

D.数据湖成本更高，数据仓库成本更低

答案：B（数据湖强调存储原始数据，模式在读取时定义；数据仓库需提前清洗、结构化并定义模式）

7.以下哪项是HBase的典型应用场景？

A.大规模历史数据的批量分析

B.实时读写的高并发键值对存储

C.复杂SQL查询的交互式分析

D.非关系型数据的全文检索

答案：B（HBase是基于HDFS的列式数据库，适合高并发、实时读写的场景，如用户行为日志的实时查询）

8.大数据处理中，“ETL”指的是？

A.抽取（Extract）、转换（Transform）、加载（Load）

B.抽取（Extract）、传输（Transfer）、加载（Load）

C.转换（Transform）、传输（Transfer）、加载（Load）

D.抽取（Extract）、转换（Transform）、存储（Store）

答案：A（ETL是数据集成的核心流程，用于将分散、异构数据源的数据抽取、清洗转换后加载到数据仓库）

9.以下哪种技术用于解决大数据的“最后一公里”问题（即数据价值落地）？

A.数据可视化

B.分布式存储

C.流计算

D.数据清洗

答案：A（数据可视化通过图表、仪表盘等形式将分析结果直观呈现，推动数据驱动决策）

10.关于机器学习中的过拟合（Overfitting），以下描述错误的是？

A.模型在训练集上表现很好，但在测试集上表现差

B.可以通过增加训练数据量缓解

C.可以通过降低模型复杂度（如减少决策树深度）缓解

D.过拟合是因为模型无法捕捉数据的复杂模式

答案：D（过拟合是模型过度学习训练数据的噪声和细节，导致泛化能力差；无法捕捉复杂模式是欠拟合的表现）

11.以下哪项属于非结构化数据？

A.关系型数据库中的用户表

B.社交媒体中的文本评论

C.财务系统中的Excel报表

D.传感器采集的温度数值

答案：B（非结构化数据无固定格式，如文本、图片、视频；其他选项为结构化或半结构化数据）

12.流计算框架Flink的核心特性是？

A.基于微批处理（Micro-Batch）实现准实时

B.支持事件时间（EventTime）和水印（Watermark）机制

C.仅适用于离线批处理

D.依赖Hadoop生态运行

答案：B（Flink是真正的流计算框架，通过事件时间和水印处理乱序数据，支持毫秒级延迟；SparkStreaming基于微批处

您可能关注的文档

文档评论（0）

ꪗꪖꪑ + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025继续教育公需科目大数据技术及应用试题及答案.docxVIP