2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1013).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1013).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

在数据清洗中,处理数值型特征的缺失值时,若该特征存在较多异常值,最合理的填充方法是?

A.用该特征的平均值填充

B.用该特征的中位数填充

C.直接删除缺失值所在行

D.用随机数插值填充

答案:B

解析:中位数对异常值不敏感,能更好反映数据集中趋势(正确);平均值易受异常值影响(A错误);直接删除会损失样本信息(C错误);随机数插值可能破坏数据分布(D错误)。

以下哪项是监督学习的典型任务?

A.客户分群(聚类)

B.预测房价(回归)

C.关联规则挖掘(关联分析)

D.异常检测(无监督)

答案:B

解析:监督学习需要标签数据,房价预测是回归任务(正确);聚类、关联分析、异常检测均为无监督学习(A/C/D错误)。

评估分类模型时,若关注“正样本被正确识别的比例”,应选择以下哪个指标?

A.准确率(Accuracy)

B.精确率(Precision)

C.召回率(Recall)

D.F1分数

答案:C

解析:召回率(真阳性率)衡量正样本被正确识别的比例(正确);准确率是整体正确比例(A错误);精确率是预测为正的样本中实际为正的比例(B错误);F1是精确率和召回率的调和平均(D错误)。

以下哪种数据编码方式适用于无序类别特征(如“颜色”:红/蓝/绿)?

A.标签编码(LabelEncoding)

B.独热编码(One-HotEncoding)

C.序数编码(OrdinalEncoding)

D.目标编码(TargetEncoding)

答案:B

解析:无序类别特征需通过独热编码避免引入顺序关系(正确);标签编码会隐含顺序(A错误);序数编码适用于有序类别(C错误);目标编码依赖标签信息(D错误)。

在K近邻(KNN)算法中,增大K值会导致模型:

A.复杂度增加,容易过拟合

B.复杂度降低,容易欠拟合

C.复杂度不变,泛化能力提升

D.对噪声更敏感

答案:B

解析:K值增大时,模型决策边界更平滑,复杂度降低,可能忽略局部特征导致欠拟合(正确);K值小才易过拟合(A错误);复杂度与K相关(C错误);K值小对噪声更敏感(D错误)。

以下哪项不属于数据可视化的基本原则?

A.信息完整性

B.视觉美观性

C.数据真实性

D.维度冗余性

答案:D

解析:可视化应避免冗余维度(正确);完整性、美观性、真实性均为基本原则(A/B/C错误)。

假设检验中,“拒绝真实的原假设”对应的错误类型是?

A.第Ⅰ类错误(α错误)

B.第Ⅱ类错误(β错误)

C.统计功效(1-β)

D.显著性水平(α)

答案:A

解析:第Ⅰ类错误是“弃真”(正确);第Ⅱ类错误是“取伪”(B错误);统计功效是正确拒绝原假设的概率(C错误);显著性水平是α的阈值(D错误)。

以下哪种机器学习算法属于生成式模型?

A.逻辑回归(判别式)

B.支持向量机(判别式)

C.朴素贝叶斯(生成式)

D.随机森林(判别式)

答案:C

解析:生成式模型学习联合分布P(X,Y),朴素贝叶斯通过贝叶斯定理推导后验(正确);其他选项均为判别式模型(学习P(Y|X))(A/B/D错误)。

在Spark中,RDD的“转换(Transformation)”操作具有以下哪个特性?

A.立即执行计算

B.惰性执行(LazyEvaluation)

C.直接输出结果到磁盘

D.仅支持数值型数据

答案:B

解析:转换操作(如map、filter)不会立即计算,需触发行动(Action)才执行(正确);行动操作才会立即执行(A错误);转换不输出结果(C错误);RDD支持任意类型数据(D错误)。

以下哪项是特征工程中“特征缩放”的主要目的?

A.消除量纲影响,提升模型训练效率

B.增加特征维度,提高模型复杂度

C.减少缺失值,提升数据完整性

D.降低噪声,增强特征可解释性

答案:A

解析:特征缩放(如标准化、归一化)可消除不同特征的量纲差异,避免模型偏向大数值特征(正确);增加维度是特征构造(B错误);处理缺失值是数据清洗(C错误);降低噪声是特征选择(D错误)。

二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)

以下属于数据清洗范畴的操作有?

A.处理重复值

B.特征分箱

C.纠正异常值

D.填充缺失值

答案:ACD

解析:数据清洗包括处理重复值、异常值、缺失值(正确);特征分箱属于特征工程(B错误)。

以下哪些指标可用于评估回归模型的性能?

A.均方误差(MSE)

B.R2决定系数

C.混淆矩阵

D.平均绝对误差(MAE)

答案:ABD

解析:MSE、MAE、R2是回归常用指标(正确);混淆矩阵用于分类(C错误)

文档评论(0)

eureka + 关注
实名认证
文档贡献者

中国证券投资基金业从业证书、计算机二级持证人

好好学习,天天向上

领域认证 该用户于2025年03月25日上传了中国证券投资基金业从业证书、计算机二级

1亿VIP精品文档

相关文档