- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
高级数据分析师考试试卷(总分100分)
一、单项选择题(共10题,每题1分,共10分)
在特征工程中,若数据存在较多异常值,最适合的特征缩放方法是()
A.归一化(Min-MaxScaling)
B.标准化(Z-ScoreScaling)
C.对数变换(LogTransformation)
D.分位数离散化(QuantileDiscretization)
答案:B
解析:标准化(Z-Score)通过均值和标准差缩放,对异常值的鲁棒性更强;而归一化(Min-Max)受极值影响大,会压缩正常数据范围;对数变换适用于偏态分布数据;分位数离散化用于降低维度而非缩放。因此选B。
评估分类模型时,若关注“正样本被正确识别的比例”,应选择的指标是()
A.准确率(Accuracy)
B.精确率(Precision)
C.召回率(Recall)
D.F1分数(F1-Score)
答案:C
解析:召回率(Recall)=TP/(TP+FN),表示正样本中被正确预测的比例;精确率关注预测为正的样本中实际为正的比例;准确率是整体正确比例;F1是精确率和召回率的调和平均。因此选C。
以下哪项不是时间序列平稳性的要求?()
A.均值不随时间变化
B.方差不随时间变化
C.自协方差仅与时间间隔有关
D.存在明显的趋势项
答案:D
解析:平稳时间序列要求均值、方差恒定,自协方差仅与时间间隔相关;趋势项会导致均值随时间变化,破坏平稳性。因此选D。
AB测试中,若显著性水平α设为0.05,其含义是()
A.原假设为真时拒绝原假设的概率
B.原假设为假时接受原假设的概率
C.备择假设为真时拒绝原假设的概率
D.备择假设为假时接受原假设的概率
答案:A
解析:α是第一类错误(弃真错误)的概率,即原假设为真时错误拒绝的概率;β是第二类错误(取伪错误)的概率。因此选A。
以下哪种算法属于有监督学习?()
A.K-means聚类
B.PCA降维
C.线性回归
D.关联规则挖掘(Apriori)
答案:C
解析:有监督学习需要标签数据,线性回归通过输入特征和标签训练模型;K-means、PCA、Apriori均为无监督学习(无标签)。因此选C。
数据仓库(DataWarehouse)的核心特性是()
A.支持实时事务处理(OLTP)
B.面向主题、集成、非易失、时变
C.存储原始未加工数据
D.强调数据的实时写入性能
答案:B
解析:数据仓库的四大特性是面向主题(按业务主题组织)、集成(多源数据整合)、非易失(长期存储)、时变(时间属性);OLTP是数据库的功能。因此选B。
因果推断中,“工具变量法”的核心作用是()
A.控制混淆变量
B.解决内生性问题(如遗漏变量)
C.提高模型预测精度
D.替代随机对照试验
答案:B
解析:工具变量通过与自变量相关但与误差项无关的变量,解决内生性(如遗漏变量导致的自变量与误差项相关)问题;控制混淆变量通常用匹配或分层。因此选B。
异常检测中,孤立森林(IsolationForest)的优势是()
A.适用于高维小样本数据
B.需预先定义异常阈值
C.计算复杂度与样本量正相关
D.仅适用于正态分布数据
答案:A
解析:孤立森林通过随机划分快速隔离异常点,对高维和小样本数据效率高;无需预设阈值(通过路径长度判断);计算复杂度低(与树的数量和深度相关);不依赖数据分布。因此选A。
商业智能(BI)工具的核心价值是()
A.实现自动化机器学习建模
B.将数据转化为可视化业务洞察
C.替代数据分析师的决策职能
D.处理非结构化数据的实时流计算
答案:B
解析:BI工具(如Tableau、PowerBI)通过可视化报表和仪表盘,帮助业务人员快速理解数据趋势;机器学习建模需专门工具(如Python/R);BI不替代决策,而是支持决策。因此选B。
数据伦理中,“去标识化(De-identification)”的局限性在于()
A.无法完全避免数据再识别风险
B.仅适用于结构化数据
C.会破坏数据的原始价值
D.必须删除所有关联字段
答案:A
解析:去标识化通过删除直接标识符(如姓名、ID)降低隐私风险,但通过外部数据(如地理位置、时间)仍可能重新识别个体(如“马萨诸塞州医保数据再识别事件”)。因此选A。
二、多项选择题(共10题,每题2分,共20分)(每题至少2个正确选项)
特征选择的主要方法包括()
A.过滤法(Filter):基于统计检验(如卡方检验)
B.包装法(Wrapper):基于模型性能(如RFE)
C.嵌入法(Embedded):模型内置选择(如LASSO)
D.主成分分析(PCA):通过降维提取特征
答案:AB
您可能关注的文档
- 2025年保险从业资格考试考试题库(附答案和详细解析)(1118).docx
- 2025年区块链应用开发工程师考试题库(附答案和详细解析)(1120).docx
- 2025年医药研发注册师考试题库(附答案和详细解析)(1108).docx
- 2025年安全开发生命周期专家考试题库(附答案和详细解析)(1118).docx
- 2025年翻译资格证(NAATI)考试题库(附答案和详细解析)(1122).docx
- 2025年资产评估师职业资格考试题库(附答案和详细解析)(1105).docx
- Java网络编程的基础原理.docx
- 《水浒传》中的社会矛盾分析.docx
- 东汉末年的社会动荡与地方割据.docx
- 人工智能产业发展协议.docx
有哪些信誉好的足球投注网站
文档评论(0)