2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1017）.docxVIP

下载本文档

0
0
约8.42千字
约 11页
2025-10-26 发布于上海
举报
版权申诉

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1017）.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据科学专业认证（CDSP）考试试卷

一、单项选择题（共10题，每题1分，共10分）

在数据清洗过程中，针对数值型特征的缺失值处理，最常用的方法是（）

A.直接删除包含缺失值的记录

B.用该特征的均值填充

C.用该特征的众数填充

D.构建回归模型预测缺失值

答案：B

解析：数值型特征的缺失值处理中，均值是最常用的填充方法（反映数据集中趋势）；选项A会导致数据量损失，选项C适用于分类变量，选项D计算成本较高，通常用于高精度需求场景。

以下哪种算法属于无监督学习？（）

A.逻辑回归

B.K-means聚类

C.随机森林

D.支持向量机（SVM）

答案：B

解析：无监督学习不依赖标签，K-means通过数据点间距离自动聚类；其余选项（逻辑回归、随机森林、SVM）均需标签训练，属于监督学习。

评估分类模型时，若正负样本严重不平衡（如正样本占1%），最不适合的指标是（）

A.F1-score

B.准确率（Accuracy）

C.ROC-AUC

D.召回率（Recall）

答案：B

解析：准确率=（TP+TN）/（TP+TN+FP+FN），当负样本占比极高时，模型可能通过全预测为负类获得高准确率，但无法反映真实分类能力；其他指标（F1、ROC-AUC、召回率）均能更敏感地捕捉少数类表现。

以下哪项不是关系型数据库（RDBMS）的特点？（）

A.支持SQL查询

B.遵循ACID原则

C.适合非结构化数据存储

D.采用二维表结构

答案：C

解析：关系型数据库（如MySQL、Oracle）擅长结构化数据存储，非结构化数据（如文本、图片）通常用NoSQL（如MongoDB）存储；其他选项均为RDBMS核心特征。

数据可视化中，用于展示三个变量间关系的最佳图表是（）

A.折线图

B.散点图

C.柱状图

D.箱线图

答案：B

解析：散点图通过x、y轴和颜色/大小（第三变量）可直观展示三个变量的关联；折线图侧重趋势，柱状图比较分类数据，箱线图展示分布。

特征工程中，“将年龄划分为‘青年/中年/老年’”属于（）

A.特征离散化

B.特征标准化

C.特征提取

D.特征选择

答案：A

解析：离散化是将连续变量分段转化为分类变量；标准化是归一化处理，提取是从原始数据生成新特征，选择是筛选重要特征。

以下哪项属于数据伦理的核心问题？（）

A.数据存储介质的选择

B.用户隐私保护

C.模型训练速度优化

D.数据可视化配色方案

答案：B

解析：数据伦理关注数据收集、使用中的公平性与隐私保护；其他选项属于技术实现或工程优化问题。

时间序列分析中，“季节性”指的是（）

A.数据随时间呈现的长期递增/递减趋势

B.固定周期（如12个月）的重复模式

C.随机波动的误差项

D.由突发事件引起的异常值

答案：B

解析：季节性是固定周期（如年度、季度）的规律性波动；趋势是长期变化，随机波动是残差，异常值是突发干扰。

大数据技术中，Hadoop的HDFS主要用于解决（）

A.分布式计算

B.分布式存储

C.实时数据处理

D.内存计算

答案：B

解析：HDFS（Hadoop分布式文件系统）是Hadoop的存储层，负责海量数据的分布式存储；分布式计算由MapReduce实现，实时处理用SparkStreaming，内存计算用Spark。

在机器学习模型中，L2正则化的主要作用是（）

A.减少欠拟合

B.防止过拟合

C.提高计算效率

D.处理类别不平衡

答案：B

解析：L2正则化（岭回归）通过在损失函数中添加权重平方和的惩罚项，限制模型复杂度，防止过拟合；欠拟合需增加模型复杂度，计算效率与正则化无关，类别不平衡用采样或调整权重解决。

二、多项选择题（共10题，每题2分，共20分）

以下属于监督学习任务的有（）

A.预测用户是否会购买商品（二分类）

B.识别图像中的猫/狗（多分类）

C.对客户群体进行细分（聚类）

D.预测房价（回归）

答案：ABD

解析：监督学习需标签训练，A（分类）、B（分类）、D（回归）均依赖标签；C（聚类）是无监督学习，无需标签。

数据质量的核心维度包括（）

A.准确性（Accuracy）

B.完整性（Completeness）

C.一致性（Consistency）

D.美观性（Aesthetics）

答案：ABC

解析：数据质量通常包括准确性（符合真实值）、完整性（无缺失）、一致性（格式统一）；美观性属于可视化范畴，非数据质量核心。

以下哪些方法可用于特征选择？（）

A.卡方检验（Chi-squareTest）

B.主成分分析（PCA）

C.随机森林的特征重要性（FeatureImportance）

D.互信息（MutualIn

您可能关注的文档

文档评论（0）

nastasia + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年数据科学专业认证(CDSP)考试题库（附答案和详细解析）（1017）.docxVIP