- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据科学专业认证(CDSP)考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪项是数据清洗中处理缺失值的最佳实践?
A.直接删除所有含缺失值的行
B.用全局均值填充所有数值型缺失值
C.根据业务场景选择删除、填充或插值
D.忽略缺失值直接建模
答案:C
解析:数据清洗需结合业务场景灵活处理缺失值。A选项可能导致数据大量丢失;B选项忽略了不同特征的分布差异(如年龄和收入均值差异大);D选项会导致模型偏差。C选项强调场景适配,是正确方法。
线性回归模型中,R2(决定系数)的取值范围是?
A.(-∞,+∞)
B.[0,1]
C.[-1,1]
D.[0,+∞)
答案:B
解析:R2衡量模型对因变量变异的解释比例,计算为1-(残差平方和/总平方和),总平方和非负,因此R2∈[0,1]。A、C、D均不符合数学定义。
以下哪项不是监督学习的典型任务?
A.预测房价(回归)
B.图像分类(分类)
C.用户分群(聚类)
D.情感分析(文本分类)
答案:C
解析:监督学习需要标签数据,聚类(如K-means)是无监督学习任务。A、B、D均有明确标签(房价数值、类别标签、情感极性)。
以下哪种数据库适合存储时序数据(如传感器日志)?
A.关系型数据库(MySQL)
B.键值数据库(Redis)
C.列存储数据库(HBase)
D.时序数据库(InfluxDB)
答案:D
解析:时序数据具有时间戳、高写入频率、范围查询为主的特点。时序数据库(如InfluxDB)针对时间序列优化了存储和查询效率,其他类型数据库无此特性。
数据可视化中,展示不同类别间数值对比最适合的图表是?
A.折线图
B.柱状图
C.散点图
D.热力图
答案:B
解析:柱状图通过柱高直观比较类别间数值差异;折线图侧重趋势,散点图展示变量关系,热力图用于二维密度分布,均不适合类别对比。
特征工程中,对“用户注册时间(2023-01-0114:30:00)”进行特征提取时,以下哪项最无价值?
A.提取小时(14)
B.提取是否为工作日
C.提取年份(2023)
D.提取时间戳的哈希值
答案:D
解析:哈希值破坏了时间的顺序和周期性,无法反映时间与目标变量的关联;A(小时影响用户活跃)、B(工作日/周末行为差异)、C(年份可能反映业务阶段)均有业务意义。
贝叶斯定理中,P(A|B)=P(B|A)P(A)/P(B),其中P(A)被称为?
A.后验概率
B.似然概率
C.先验概率
D.边缘概率
答案:C
解析:P(A)是实验前对A的先验信念;P(B|A)是似然,P(A|B)是后验,P(B)是边缘概率。
正则化(Regularization)的主要目的是?
A.提高模型训练速度
B.减少模型过拟合
C.增加模型复杂度
D.解决类别不平衡
答案:B
解析:正则化通过添加惩罚项(如L1/L2)限制模型参数复杂度,防止模型过度拟合训练数据;A是优化器的作用,C与正则化目标相反,D需用采样或加权损失解决。
以下哪项不属于Hadoop生态核心组件?
A.HDFS
B.MapReduce
C.Spark
D.YARN
答案:C
解析:Hadoop核心是HDFS(存储)、MapReduce(计算)、YARN(资源管理);Spark是独立的大数据计算框架,属于Hadoop生态扩展但非核心。
A/B测试中,若实验组与对照组的差异在统计上显著(p0.05),意味着?
A.差异由随机因素导致的概率低于5%
B.实验组效果一定优于对照组
C.测试样本量足够大
D.无需考虑业务显著性
答案:A
解析:p值表示“原假设(无差异)成立时观察到当前差异的概率”,p0.05说明随机因素导致差异的概率5%;B未考虑方向(可能更差),C样本量需通过功效分析确定,D需同时关注统计与业务显著性。
二、多项选择题(共10题,每题2分,共20分)
以下属于分类算法的有?(至少2个正确选项)
A.逻辑回归(LogisticRegression)
B.支持向量机(SVM)
C.线性回归(LinearRegression)
D.决策树(DecisionTree)
答案:ABD
解析:分类算法输出离散类别,逻辑回归(二分类)、SVM(分类/回归)、决策树(分类/回归)均可用于分类;线性回归输出连续值,是回归算法。
数据可视化的基本原则包括?
A.准确传达数据信息
B.尽可能使用3D效果提升美观
C.避免误导性图表设计(如截断纵轴)
D.每个图表仅表达一个核心观点
答案:ACD
解析:可视化核心是清晰传递信息,3D效果可能扭曲数据(如柱状图3D倾斜导致高度误判),是常见误区;A、C、D均为《数据可视化实战》中的基本原则
您可能关注的文档
- 2025年专利代理师资格考试考试题库(附答案和详细解析)(1001).docx
- 2025年企业文化师考试题库(附答案和详细解析)(1002).docx
- 2025年区块链应用开发工程师考试题库(附答案和详细解析)(0930).docx
- 2025年数据伦理合规师考试题库(附答案和详细解析)(1002).docx
- 2025年数据建模工程师考试题库(附答案和详细解析)(0919).docx
- 2025年智能机器人系统集成师考试题库(附答案和详细解析)(1002).docx
- 2025年机器人操作工程师考试题库(附答案和详细解析)(0930).docx
- 2025年注册培训师(CCT)考试题库(附答案和详细解析)(0930).docx
- 2025年注册暖通工程师考试题库(附答案和详细解析)(0930).docx
- 2025年注册金融数据分析师(CFDA)考试题库(附答案和详细解析)(0926).docx
- 2025年艺术品鉴定评估师考试题库(附答案和详细解析)(0926).docx
- 2025年艺术品鉴定评估师考试题库(附答案和详细解析)(1001).docx
- 2025年计算机技术与软件专业技术资格(软考)考试题库(附答案和详细解析)(1001).docx
- 中学教育题库及答案.doc
- 交通安全设施合同.docx
最近下载
- 护理事业近五年发展规划(2026-2030).pdf VIP
- 虚体医学丛书:医说解集——昆明新空间1025实验室.pdf VIP
- 跨学科实践活动10 调查我国航天科技领域中新型材料、新型能源的应用-九年级化学下册(人教版2024).pptx VIP
- 2024中国可再生能源大会:大型伞梯式陆基高空风力发电技术研究.docx
- 特发性与继发性三叉神经痛诊疗专家共识(2025版).pptx VIP
- 工艺管道施工方案.pdf VIP
- 《像山那样思考》课件.ppt VIP
- 工艺管道施工方案.doc VIP
- 分析石油地质勘探与储层评价方法.docx VIP
- DB11T 891-2012 居住建筑节能设计标准.pdf VIP
文档评论(0)