2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1017).docxVIP

2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1017).docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

数据科学专业认证(CDSP)考试试卷

一、单项选择题(共10题,每题1分,共10分)

在数据清洗过程中,针对数值型特征的缺失值处理,最常用的方法是()

A.直接删除包含缺失值的记录

B.用该特征的均值填充

C.用该特征的众数填充

D.构建回归模型预测缺失值

答案:B

解析:数值型特征的缺失值处理中,均值是最常用的填充方法(反映数据集中趋势);选项A会导致数据量损失,选项C适用于分类变量,选项D计算成本较高,通常用于高精度需求场景。

以下哪种算法属于无监督学习?()

A.逻辑回归

B.K-means聚类

C.随机森林

D.支持向量机(SVM)

答案:B

解析:无监督学习不依赖标签,K-means通过数据点间距离自动聚类;其余选项(逻辑回归、随机森林、SVM)均需标签训练,属于监督学习。

评估分类模型时,若正负样本严重不平衡(如正样本占1%),最不适合的指标是()

A.F1-score

B.准确率(Accuracy)

C.ROC-AUC

D.召回率(Recall)

答案:B

解析:准确率=(TP+TN)/(TP+TN+FP+FN),当负样本占比极高时,模型可能通过全预测为负类获得高准确率,但无法反映真实分类能力;其他指标(F1、ROC-AUC、召回率)均能更敏感地捕捉少数类表现。

以下哪项不是关系型数据库(RDBMS)的特点?()

A.支持SQL查询

B.遵循ACID原则

C.适合非结构化数据存储

D.采用二维表结构

答案:C

解析:关系型数据库(如MySQL、Oracle)擅长结构化数据存储,非结构化数据(如文本、图片)通常用NoSQL(如MongoDB)存储;其他选项均为RDBMS核心特征。

数据可视化中,用于展示三个变量间关系的最佳图表是()

A.折线图

B.散点图

C.柱状图

D.箱线图

答案:B

解析:散点图通过x、y轴和颜色/大小(第三变量)可直观展示三个变量的关联;折线图侧重趋势,柱状图比较分类数据,箱线图展示分布。

特征工程中,“将年龄划分为‘青年/中年/老年’”属于()

A.特征离散化

B.特征标准化

C.特征提取

D.特征选择

答案:A

解析:离散化是将连续变量分段转化为分类变量;标准化是归一化处理,提取是从原始数据生成新特征,选择是筛选重要特征。

以下哪项属于数据伦理的核心问题?()

A.数据存储介质的选择

B.用户隐私保护

C.模型训练速度优化

D.数据可视化配色方案

答案:B

解析:数据伦理关注数据收集、使用中的公平性与隐私保护;其他选项属于技术实现或工程优化问题。

时间序列分析中,“季节性”指的是()

A.数据随时间呈现的长期递增/递减趋势

B.固定周期(如12个月)的重复模式

C.随机波动的误差项

D.由突发事件引起的异常值

答案:B

解析:季节性是固定周期(如年度、季度)的规律性波动;趋势是长期变化,随机波动是残差,异常值是突发干扰。

大数据技术中,Hadoop的HDFS主要用于解决()

A.分布式计算

B.分布式存储

C.实时数据处理

D.内存计算

答案:B

解析:HDFS(Hadoop分布式文件系统)是Hadoop的存储层,负责海量数据的分布式存储;分布式计算由MapReduce实现,实时处理用SparkStreaming,内存计算用Spark。

在机器学习模型中,L2正则化的主要作用是()

A.减少欠拟合

B.防止过拟合

C.提高计算效率

D.处理类别不平衡

答案:B

解析:L2正则化(岭回归)通过在损失函数中添加权重平方和的惩罚项,限制模型复杂度,防止过拟合;欠拟合需增加模型复杂度,计算效率与正则化无关,类别不平衡用采样或调整权重解决。

二、多项选择题(共10题,每题2分,共20分)

以下属于监督学习任务的有()

A.预测用户是否会购买商品(二分类)

B.识别图像中的猫/狗(多分类)

C.对客户群体进行细分(聚类)

D.预测房价(回归)

答案:ABD

解析:监督学习需标签训练,A(分类)、B(分类)、D(回归)均依赖标签;C(聚类)是无监督学习,无需标签。

数据质量的核心维度包括()

A.准确性(Accuracy)

B.完整性(Completeness)

C.一致性(Consistency)

D.美观性(Aesthetics)

答案:ABC

解析:数据质量通常包括准确性(符合真实值)、完整性(无缺失)、一致性(格式统一);美观性属于可视化范畴,非数据质量核心。

以下哪些方法可用于特征选择?()

A.卡方检验(Chi-squareTest)

B.主成分分析(PCA)

C.随机森林的特征重要性(FeatureImportance)

D.互信息(MutualIn

文档评论(0)

nastasia + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档