2025年高级数据分析师考试题库(附答案和详细解析)(1002).docxVIP

2025年高级数据分析师考试题库(附答案和详细解析)(1002).docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

高级数据分析师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

在假设检验中,p值的本质含义是()

A.原假设为真时拒绝原假设的概率

B.备择假设为真时接受原假设的概率

C.原假设为真时观察到当前或更极端结果的概率

D.备择假设为真时观察到当前结果的概率

答案:C

解析:p值是在原假设(H?)成立的前提下,出现当前样本统计量或更极端情况的概率(即P(观测值|H?为真))。选项A错误,拒绝原假设的概率是显著性水平α;选项B和D混淆了原假设与备择假设的条件概率,因此正确答案为C。

以下哪种场景最适合使用独热编码(One-HotEncoding)处理类别特征?()

A.有序类别特征(如教育程度:小学/初中/高中)

B.高基数类别特征(如地区:200个城市)

C.无序类别特征(如颜色:红/蓝/绿)

D.连续数值特征(如温度:25℃/30℃)

答案:C

解析:独热编码适用于无序类别特征,通过二进制向量表示不同类别,避免引入顺序关系。选项A的有序特征更适合标签编码(LabelEncoding);选项B的高基数特征使用独热编码会导致维度爆炸(维度=类别数),通常用目标编码或嵌入;选项D的连续特征无需编码,因此正确答案为C。

时间序列分析中,若数据呈现稳定的季节性波动(如季度性销售),且趋势不明显,最适合的模型是()

A.ARIMA(p,d,q)

B.SARIMA(p,d,q)(P,D,Q)s

C.Holt-Winters加法模型

D.指数平滑法(SES)

答案:C

解析:Holt-Winters加法模型专门用于处理包含季节性成分且趋势不显著的时间序列,其加法模式假设季节波动幅度稳定;SARIMA适用于同时有趋势和季节性的情况;ARIMA无季节性处理能力;SES仅适用于无趋势、无季节的平稳序列,因此正确答案为C。

数据清洗中,处理缺失值时“直接删除含缺失值的行”的适用条件是()

A.缺失值比例低于5%且无系统性缺失

B.缺失值比例高于30%且为随机缺失

C.缺失值与目标变量强相关

D.所有特征均存在缺失

答案:A

解析:直接删除法(列表删除)仅适用于缺失值比例极低(通常5%)且缺失是随机的(无系统性偏差),否则会导致样本信息丢失或偏差。选项B的高比例缺失应采用插补;选项C的系统性缺失需保留并分析原因;选项D的全特征缺失无法删除,因此正确答案为A。

AB测试中,若实验组与对照组的样本量差异超过10%,最可能导致的问题是()

A.统计功效降低

B.第一类错误率升高

C.第二类错误率降低

D.结果无法可视化

答案:A

解析:AB测试要求两组样本量均衡,否则统计功效(检测真实差异的能力)会降低,可能遗漏显著差异。第一类错误率(α)由显著性水平控制;第二类错误率(β)与样本量负相关,样本量不均衡会导致β升高;结果可视化与样本量无关,因此正确答案为A。

数据可视化中,“信息密度”的核心要求是()

A.图表中包含尽可能多的数据点

B.单位面积传递的有效信息量最大化

C.颜色种类与数据维度一一对应

D.图表标题包含所有分析结论

答案:B

解析:信息密度指图表中单位面积传递的有效信息量,需避免冗余元素(如过度装饰、重复标签),同时确保核心信息清晰。选项A可能导致图表混乱;选项C可能增加认知负担;选项D违背“最小化墨水比”原则,因此正确答案为B。

以下属于Spark计算模型特点的是()

A.基于磁盘的迭代计算

B.仅支持批处理

C.内存计算与RDD持久化

D.依赖HDFS作为唯一存储

答案:C

解析:Spark的核心是RDD(弹性分布式数据集),支持内存计算和持久化(Cache/Persist),显著提升迭代计算效率。选项A是HadoopMapReduce的特点;Spark支持批处理(SparkCore)、流处理(SparkStreaming)、SQL(SparkSQL)等多场景;Spark可对接HDFS、S3、本地存储等,因此正确答案为C。

业务分析中,“北极星指标”的核心特征是()

A.覆盖所有业务环节

B.反映用户长期价值

C.与公司核心目标强相关

D.统计口径复杂但精确

答案:C

解析:北极星指标(NorthStarMetric)是最能反映公司核心业务目标的单一指标(如电商的GMV、社交平台的DAU),需具备可量化、可追踪、与核心目标强相关的特点。选项A会导致指标分散;选项B是长期价值指标(如LTV)的特点;选项D违背简洁性原则,因此正确答案为C。

评估分类模型时,若样本严重不平衡(正类占比1%),最不适合的指标是()

A.F1分数

B.ROC-AUC

C.准确率(Accuracy)

D.召回率(Recall)

答案:C

解析

文档评论(0)

杜家小钰 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档