- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据建模工程师专业能力考试试卷
一、单项选择题(共10题,每题1分,共10分)
以下哪种方法最适合解决模型过拟合问题?
A.减少训练数据量
B.增加模型复杂度
C.添加L2正则化项
D.使用更简单的损失函数
答案:C
解析:过拟合的本质是模型对训练数据过度学习,泛化能力差。L2正则化通过在损失函数中添加权重的平方和惩罚项,限制模型参数的大小,从而降低复杂度(正确)。减少训练数据量会加剧过拟合(A错误);增加模型复杂度会进一步过拟合(B错误);损失函数的选择与过拟合无直接关联(D错误)。
在二分类任务中,若正类样本极少,最不适合的评估指标是?
A.准确率
B.F1-score
C.召回率
D.AUC-ROC
答案:A
解析:准确率=(TP+TN)/总样本,当正类极少时(如1%),即使模型全预测为负类,准确率仍可达99%,无法反映真实性能(A错误)。F1-score平衡精确率和召回率(B正确);召回率关注正类覆盖(C正确);AUC-ROC对类别不平衡不敏感(D正确)。
随机森林(RandomForest)的核心思想是?
A.多个弱分类器线性组合
B.基分类器间存在强依赖关系
C.对样本和特征同时进行随机抽样
D.通过梯度下降优化损失函数
答案:C
解析:随机森林通过Bagging方法,对样本(Bootstrap抽样)和特征(随机选择子集)同时随机化,构建多个决策树并集成(C正确)。线性组合是线性模型的特点(A错误);强依赖是Boosting(如XGBoost)的特点(B错误);梯度下降是单模型优化方法(D错误)。
对类别型特征“职业”(包含5个取值)进行独热编码(One-HotEncoding)后,特征维度会增加?
A.4维
B.5维
C.6维
D.不增加
答案:A
解析:独热编码对n个类别的特征生成n-1个新特征(避免多重共线性),因此5个取值生成4维(A正确)。若未处理多重共线性则为5维,但工程实践中通常保留n-1维(B错误)。
以下哪项不属于数据清洗的核心任务?
A.处理缺失值
B.去除异常值
C.特征标准化
D.纠正数据记录错误
答案:C
解析:数据清洗主要解决数据质量问题(缺失、异常、错误),特征标准化属于数据变换(C错误)。A、B、D均为数据清洗内容(正确)。
逻辑回归(LogisticRegression)的输出是?
A.类别标签(0/1)
B.概率值([0,1]区间)
C.对数几率(logodds)
D.特征重要性得分
答案:B
解析:逻辑回归通过sigmoid函数将线性组合映射到[0,1]区间,表示正类概率(B正确)。类别标签是阈值划分后的结果(A错误);对数几率是sigmoid的输入(C错误);特征重要性需额外计算(D错误)。
在时间序列预测中,使用“前向填充”(ForwardFill)处理缺失值可能导致?
A.引入未来信息
B.低估数据波动
C.高估数据趋势
D.不影响模型性能
答案:B
解析:前向填充用最近的历史值填充,会平滑数据,可能掩盖真实波动(B正确)。引入未来信息是后向填充的问题(A错误);高估趋势需看具体数据分布(C错误);必然影响模型(D错误)。
以下哪种算法属于生成式模型?
A.支持向量机(SVM)
B.朴素贝叶斯(NaiveBayes)
C.梯度提升树(GBDT)
D.K近邻(KNN)
答案:B
解析:生成式模型学习联合概率P(X,Y),朴素贝叶斯通过贝叶斯定理计算P(Y|X)(B正确)。判别式模型学习条件概率P(Y|X)或决策边界(A、C、D错误)。
特征分箱(Binning)的主要目的是?
A.减少计算复杂度
B.增强特征的非线性表达
C.消除量纲影响
D.提高模型训练速度
答案:B
解析:分箱将连续特征离散化,引入非线性关系(如年龄分箱为“青年/中年/老年”),提升模型对非线性模式的捕捉能力(B正确)。减少复杂度是特征选择的目的(A错误);消除量纲靠标准化(C错误);训练速度与分箱无直接关联(D错误)。
模型部署时,以下哪项是关键考虑因素?
A.训练集的特征分布
B.推理延迟
C.模型在验证集的准确率
D.超参数的调优范围
答案:B
解析:部署阶段需关注实际应用中的性能,如推理速度(延迟)、资源占用、接口稳定性等(B正确)。训练集分布、验证集准确率是训练阶段的指标(A、C错误);超参数调优在训练前完成(D错误)。
二、多项选择题(共10题,每题2分,共20分)
以下属于数据预处理步骤的有?()
A.缺失值填充
B.特征标准化
C.标签编码(LabelEncoding)
D.异常值检测
答案:ABCD
解析:数据预处理包括数据清洗(缺失值、异常值)、数据变换(标准化、编码)等,所有选项
您可能关注的文档
- 2025年区块链审计师考试题库(附答案和详细解析)(1119).docx
- 2025年强化学习工程师考试题库(附答案和详细解析)(1024).docx
- 2025年执业药师资格考试考试题库(附答案和详细解析)(1120).docx
- 2025年注册展览设计师考试题库(附答案和详细解析)(1110).docx
- 2025年注册工业设计师考试题库(附答案和详细解析)(1114).docx
- 2025年注册电力工程师考试题库(附答案和详细解析)(1122).docx
- 2025年注册结构工程师考试题库(附答案和详细解析)(1117).docx
- 2025年算法工程师职业认证考试题库(附答案和详细解析)(1111).docx
- 2025年网络安全分析师考试题库(附答案和详细解析)(1121).docx
- 中美经贸摩擦的长期趋势分析.docx
- 浙江省温州市浙南名校联盟2025-2026学年高一上学期期中联考数学试题含解析.docx
- 26高考数学提分秘诀重难点34圆锥曲线中的定点、定值、定直线问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点35概率与统计的综合问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点31圆锥曲线中的切线与切点弦问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点30圆锥曲线中的弦长问题与长度和、差、商、积问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点29巧解圆锥曲线的离心率问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点28直线与圆的综合(举一反三专项训练)(全国通用)(含解析).docx
- 寡核苷酸药物重复给药毒性研究技术指南.docx
- 重组溶瘤腺病毒生产质量管理标准.docx
- 26高考数学提分秘诀重难点27直线与圆中常考的最值与范围问题(举一反三专项训练)(全国通用)(含解析).docx
最近下载
- 西南交《城市轨道交通总体与转向架》在线作业二(003)随机题.doc VIP
- 四手操作口腔护理.pptx VIP
- 2025年XX村巩固脱贫攻坚成果同乡村振兴有效衔接工作方案.pdf VIP
- ODI-Essbase-维度导出及数据导入导出.doc VIP
- 西南交《城市轨道交通总体与转向架》在线作业二(002)随机题.doc VIP
- 《GB_T 45435 - 2025航空辅助导航北斗机载设备技术要求和测试方法》必威体育精装版解读.pptx VIP
- 西南交《城市轨道交通总体与转向架》在线作业一(001)随机题.doc VIP
- 26高考数学提分秘诀重难点28直线与圆的综合(举一反三专项训练)(全国通用)(含解析).docx VIP
- 无人机飞控系统中自适应故障诊断与容错控制技术的深度剖析与实践.docx
- 仓库台账表格.pdf VIP
有哪些信誉好的足球投注网站
文档评论(0)