- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
在数据清洗过程中,针对数值型特征的缺失值处理,最常用的方法是()
A.直接删除包含缺失值的记录
B.用该特征的均值填充
C.用该特征的众数填充
D.构建回归模型预测缺失值
答案:B
解析:数值型特征的缺失值处理中,均值是最常用的填充方法(反映数据集中趋势);选项A会导致数据量损失,选项C适用于分类变量,选项D计算成本较高,通常用于高精度需求场景。
以下哪种算法属于无监督学习?()
A.逻辑回归
B.K-means聚类
C.随机森林
D.支持向量机(SVM)
答案:B
解析:无监督学习不依赖标签,K-means通过数据点间距离自动聚类;其余选项(逻辑回归、随机森林、SVM)均需标签训练,属于监督学习。
评估分类模型时,若正负样本严重不平衡(如正样本占1%),最不适合的指标是()
A.F1-score
B.准确率(Accuracy)
C.ROC-AUC
D.召回率(Recall)
答案:B
解析:准确率=(TP+TN)/(TP+TN+FP+FN),当负样本占比极高时,模型可能通过全预测为负类获得高准确率,但无法反映真实分类能力;其他指标(F1、ROC-AUC、召回率)均能更敏感地捕捉少数类表现。
以下哪项不是关系型数据库(RDBMS)的特点?()
A.支持SQL查询
B.遵循ACID原则
C.适合非结构化数据存储
D.采用二维表结构
答案:C
解析:关系型数据库(如MySQL、Oracle)擅长结构化数据存储,非结构化数据(如文本、图片)通常用NoSQL(如MongoDB)存储;其他选项均为RDBMS核心特征。
数据可视化中,用于展示三个变量间关系的最佳图表是()
A.折线图
B.散点图
C.柱状图
D.箱线图
答案:B
解析:散点图通过x、y轴和颜色/大小(第三变量)可直观展示三个变量的关联;折线图侧重趋势,柱状图比较分类数据,箱线图展示分布。
特征工程中,“将年龄划分为‘青年/中年/老年’”属于()
A.特征离散化
B.特征标准化
C.特征提取
D.特征选择
答案:A
解析:离散化是将连续变量分段转化为分类变量;标准化是归一化处理,提取是从原始数据生成新特征,选择是筛选重要特征。
以下哪项属于数据伦理的核心问题?()
A.数据存储介质的选择
B.用户隐私保护
C.模型训练速度优化
D.数据可视化配色方案
答案:B
解析:数据伦理关注数据收集、使用中的公平性与隐私保护;其他选项属于技术实现或工程优化问题。
时间序列分析中,“季节性”指的是()
A.数据随时间呈现的长期递增/递减趋势
B.固定周期(如12个月)的重复模式
C.随机波动的误差项
D.由突发事件引起的异常值
答案:B
解析:季节性是固定周期(如年度、季度)的规律性波动;趋势是长期变化,随机波动是残差,异常值是突发干扰。
大数据技术中,Hadoop的HDFS主要用于解决()
A.分布式计算
B.分布式存储
C.实时数据处理
D.内存计算
答案:B
解析:HDFS(Hadoop分布式文件系统)是Hadoop的存储层,负责海量数据的分布式存储;分布式计算由MapReduce实现,实时处理用SparkStreaming,内存计算用Spark。
在机器学习模型中,L2正则化的主要作用是()
A.减少欠拟合
B.防止过拟合
C.提高计算效率
D.处理类别不平衡
答案:B
解析:L2正则化(岭回归)通过在损失函数中添加权重平方和的惩罚项,限制模型复杂度,防止过拟合;欠拟合需增加模型复杂度,计算效率与正则化无关,类别不平衡用采样或调整权重解决。
二、多项选择题(共10题,每题2分,共20分)
以下属于监督学习任务的有()
A.预测用户是否会购买商品(二分类)
B.识别图像中的猫/狗(多分类)
C.对客户群体进行细分(聚类)
D.预测房价(回归)
答案:ABD
解析:监督学习需标签训练,A(分类)、B(分类)、D(回归)均依赖标签;C(聚类)是无监督学习,无需标签。
数据质量的核心维度包括()
A.准确性(Accuracy)
B.完整性(Completeness)
C.一致性(Consistency)
D.美观性(Aesthetics)
答案:ABC
解析:数据质量通常包括准确性(符合真实值)、完整性(无缺失)、一致性(格式统一);美观性属于可视化范畴,非数据质量核心。
以下哪些方法可用于特征选择?()
A.卡方检验(Chi-squareTest)
B.主成分分析(PCA)
C.随机森林的特征重要性(FeatureImportance)
D.互信息(MutualIn
您可能关注的文档
- 2025年短视频制作师考试题库(附答案和详细解析)(1022).docx
- 2025年国际注册信托与财富管理师(CTEP)考试题库(附答案和详细解析)(1011).docx
- 2025年人工智能工程师考试题库(附答案和详细解析)(1020).docx
- 2025年思科认证网络专家(CCIE)考试题库(附答案和详细解析)(1021).docx
- 2025年亚马逊云科技认证考试题库(附答案和详细解析)(1013).docx
- 2025年游戏引擎开发师考试题库(附答案和详细解析)(1022).docx
- 2025年云安全工程师考试题库(附答案和详细解析)(1022).docx
- 2025年注册地籍测绘师考试题库(附答案和详细解析)(1020).docx
- 2025年注册给排水工程师考试题库(附答案和详细解析)(1020).docx
- 2025年注册人力资源管理师考试题库(附答案和详细解析)(1021).docx
- 2025年注册信息架构师考试题库(附答案和详细解析)(1021).docx
- 2025年注册证券分析师(RSA)考试题库(附答案和详细解析)(1022).docx
- ESG绩效与企业绿色创新关系分析.docx
有哪些信誉好的足球投注网站
文档评论(0)