2024年大数据分析与应用1+X证书高级考试(含答案解析).docxVIP

2024年大数据分析与应用1+X证书高级考试(含答案解析).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2024年大数据分析与应用1+X证书高级考试(含答案解析)

第一部分:单项选择题(共20题,每题1分)

1、数据清洗中处理缺失值的优先操作是?

A、直接删除记录

B、用均值填充

C、分析缺失模式

D、用众数填充

答案:C

解析:处理缺失值时应先分析缺失模式(如随机缺失/系统性缺失),再选择处理方式。直接删除(A)可能丢失关键信息,均值(B)或众数(D)填充需根据数据类型选择,未分析模式直接操作会导致偏差。

2、Hadoop生态中负责资源调度的组件是?

A、HDFS

B、YARN

C、MapReduce

D、HBase

答案:B

解析:YARN(YetAnotherResourceNegotiator)负责集群资源管理与任务调度。HDFS(A)是分布式文件系统,MapReduce(C)是计算框架,HBase(D)是列式数据库,均不承担调度功能。

3、机器学习中过拟合的典型表现是?

A、训练误差大,测试误差小

B、训练误差小,测试误差大

C、训练/测试误差均大

D、训练/测试误差均小

答案:B

解析:过拟合指模型对训练数据过度学习,训练误差小但泛化能力差,导致测试误差显著增大。A描述欠拟合反向情况,C是模型能力不足,D是理想状态。

4、K-means聚类的核心参数是?

A、学习率

B、迭代次数

C、簇数K

D、正则化系数

答案:C

解析:K-means需预先指定簇数K,直接影响聚类结果。学习率(A)是优化算法参数,迭代次数(B)影响收敛性,正则化(D)用于防止过拟合,均非核心。

5、数据仓库的主要特性是?

A、实时性高

B、支持事务处理

C、面向主题

D、数据易变

答案:C

解析:数据仓库面向主题组织数据(如客户、销售主题),支持决策分析。实时性(A)和事务处理(B)是OLTP系统特性,数据易变(D)与数据仓库的稳定性相悖。

6、Spark中RDD的特性不包括?

A、不可变

B、可分区

C、支持血缘

D、实时更新

答案:D

解析:RDD(弹性分布式数据集)是不可变(A)、可分区(B)的分布式数据集,通过血缘(C)记录操作链实现容错。实时更新(D)违背不可变性设计。

7、时间序列分析中ARIMA模型的参数是?

A、p,d,q

B、k,n,m

C、α,β,γ

D、w,b,λ

答案:A

解析:ARIMA(自回归积分滑动平均)模型由p(自回归阶数)、d(差分阶数)、q(滑动平均阶数)三个参数确定。其他选项为其他模型参数符号。

8、数据可视化中避免使用的图表是?

A、折线图

B、饼图

C、三维柱状图

D、散点图

答案:C

解析:三维柱状图因透视变形易误导数据对比,属于应避免的图表类型。折线图(A)适合趋势,饼图(B)适合占比(需注意角度限制),散点图(D)适合相关性分析。

9、特征工程中独热编码适用于?

A、连续数值特征

B、高基数分类特征

C、低基数分类特征

D、文本特征

答案:C

解析:独热编码将分类特征转换为二进制向量,适用于低基数(类别少)特征。高基数(B)会导致维度爆炸,连续(A)需分箱,文本(D)需词嵌入等方法。

10、流式计算中窗口类型不包括?

A、滚动窗口

B、滑动窗口

C、会话窗口

D、聚合窗口

答案:D

解析:常见窗口类型有滚动(固定大小无重叠)、滑动(固定大小有重叠)、会话(用户行为间隔)窗口。聚合窗口(D)是操作而非类型。

11、关联规则挖掘中支持度表示?

A、规则强度

B、项目集出现频率

C、规则置信度

D、提升度

答案:B

解析:支持度是项目集在总事务中的出现频率,反映普遍性。规则强度(A)通常指置信度(C),提升度(D)衡量规则有效性。

12、分布式计算中容错机制的核心是?

A、数据备份

B、任务重试

C、血缘追踪

D、资源隔离

答案:C

解析:分布式系统通过血缘(操作链)重新计算丢失数据,比数据备份(A)更节省空间。任务重试(B)是补充手段,资源隔离(D)是安全措施。

13、评估分类模型的F1分数是?

A、精确率与召回率的调和平均

B、准确率与精确率的算术平均

C、召回率与FPR的比值

D、TP与FP的比值

答案:A

解析:F1分数=2(精确率召回率)/(精确率+召回率),是二者的调和平均。准确率(B)是整体正确比例,FPR(C)是假正率,TP/FP(D)无直接意义。

14、数据脱敏技术不包括?

A、哈希处理

B、数据加密

C、泛化处理

D、特征缩放

答案:D

解析:特征缩放(如标准化)是特征工程步骤,不涉及隐私保护。哈希(A)、加密(B)、泛化(C)(如将年龄替换为年龄段)均为脱敏方法。

15、Hive的核心是?

A、内存计算

B、SQL转MapReduce

C、实时查询

D、列式存储

答案:B

解析:Hive通过将HiveQL转换为MapReduce任务实现数据查询,适合离线分析。内存计算(A)是Spar

文档评论(0)

小Tt + 关注
实名认证
文档贡献者

一级建造师持证人

繁华落幕

领域认证 该用户于2023年11月03日上传了一级建造师

1亿VIP精品文档

相关文档