- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
在数据清洗中,处理数值型特征的缺失值时,若该特征存在较多异常值,最合理的填充方法是?
A.用该特征的平均值填充
B.用该特征的中位数填充
C.直接删除缺失值所在行
D.用随机数插值填充
答案:B
解析:中位数对异常值不敏感,能更好反映数据集中趋势(正确);平均值易受异常值影响(A错误);直接删除会损失样本信息(C错误);随机数插值可能破坏数据分布(D错误)。
以下哪项是监督学习的典型任务?
A.客户分群(聚类)
B.预测房价(回归)
C.关联规则挖掘(关联分析)
D.异常检测(无监督)
答案:B
解析:监督学习需要标签数据,房价预测是回归任务(正确);聚类、关联分析、异常检测均为无监督学习(A/C/D错误)。
评估分类模型时,若关注“正样本被正确识别的比例”,应选择以下哪个指标?
A.准确率(Accuracy)
B.精确率(Precision)
C.召回率(Recall)
D.F1分数
答案:C
解析:召回率(真阳性率)衡量正样本被正确识别的比例(正确);准确率是整体正确比例(A错误);精确率是预测为正的样本中实际为正的比例(B错误);F1是精确率和召回率的调和平均(D错误)。
以下哪种数据编码方式适用于无序类别特征(如“颜色”:红/蓝/绿)?
A.标签编码(LabelEncoding)
B.独热编码(One-HotEncoding)
C.序数编码(OrdinalEncoding)
D.目标编码(TargetEncoding)
答案:B
解析:无序类别特征需通过独热编码避免引入顺序关系(正确);标签编码会隐含顺序(A错误);序数编码适用于有序类别(C错误);目标编码依赖标签信息(D错误)。
在K近邻(KNN)算法中,增大K值会导致模型:
A.复杂度增加,容易过拟合
B.复杂度降低,容易欠拟合
C.复杂度不变,泛化能力提升
D.对噪声更敏感
答案:B
解析:K值增大时,模型决策边界更平滑,复杂度降低,可能忽略局部特征导致欠拟合(正确);K值小才易过拟合(A错误);复杂度与K相关(C错误);K值小对噪声更敏感(D错误)。
以下哪项不属于数据可视化的基本原则?
A.信息完整性
B.视觉美观性
C.数据真实性
D.维度冗余性
答案:D
解析:可视化应避免冗余维度(正确);完整性、美观性、真实性均为基本原则(A/B/C错误)。
假设检验中,“拒绝真实的原假设”对应的错误类型是?
A.第Ⅰ类错误(α错误)
B.第Ⅱ类错误(β错误)
C.统计功效(1-β)
D.显著性水平(α)
答案:A
解析:第Ⅰ类错误是“弃真”(正确);第Ⅱ类错误是“取伪”(B错误);统计功效是正确拒绝原假设的概率(C错误);显著性水平是α的阈值(D错误)。
以下哪种机器学习算法属于生成式模型?
A.逻辑回归(判别式)
B.支持向量机(判别式)
C.朴素贝叶斯(生成式)
D.随机森林(判别式)
答案:C
解析:生成式模型学习联合分布P(X,Y),朴素贝叶斯通过贝叶斯定理推导后验(正确);其他选项均为判别式模型(学习P(Y|X))(A/B/D错误)。
在Spark中,RDD的“转换(Transformation)”操作具有以下哪个特性?
A.立即执行计算
B.惰性执行(LazyEvaluation)
C.直接输出结果到磁盘
D.仅支持数值型数据
答案:B
解析:转换操作(如map、filter)不会立即计算,需触发行动(Action)才执行(正确);行动操作才会立即执行(A错误);转换不输出结果(C错误);RDD支持任意类型数据(D错误)。
以下哪项是特征工程中“特征缩放”的主要目的?
A.消除量纲影响,提升模型训练效率
B.增加特征维度,提高模型复杂度
C.减少缺失值,提升数据完整性
D.降低噪声,增强特征可解释性
答案:A
解析:特征缩放(如标准化、归一化)可消除不同特征的量纲差异,避免模型偏向大数值特征(正确);增加维度是特征构造(B错误);处理缺失值是数据清洗(C错误);降低噪声是特征选择(D错误)。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
以下属于数据清洗范畴的操作有?
A.处理重复值
B.特征分箱
C.纠正异常值
D.填充缺失值
答案:ACD
解析:数据清洗包括处理重复值、异常值、缺失值(正确);特征分箱属于特征工程(B错误)。
以下哪些指标可用于评估回归模型的性能?
A.均方误差(MSE)
B.R2决定系数
C.混淆矩阵
D.平均绝对误差(MAE)
答案:ABD
解析:MSE、MAE、R2是回归常用指标(正确);混淆矩阵用于分类(C错误)
您可能关注的文档
最近下载
- 换热站建设标准.doc VIP
- 研究生2024版新中特课件第二章新时代新征程中国共产党的使命任务.pptx VIP
- 推进供热企业标准化体系建设思考(工商管理毕业论文).doc VIP
- 2025入党积极分子发展对象培训考试题库100题含答案(完整版).docx VIP
- 调味品生产自动化一体化项目环境影响报告表.pdf VIP
- 2024年安徽省高考生物试卷(含答案详解).pdf
- 一年级语文上册新教材第八单元解读.docx
- 2025年国企竞聘笔考试试题库目简答题及答案指导.docx VIP
- DB11∕T 808-2020 市政基础设施工程资料管理规程.docx
- 《小学数学作业分层设计——五年级上册第三单元”小数除法“》.pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)