- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
高级数据分析师考试试卷(总分100分)
一、单项选择题(共10题,每题1分,共10分)
在假设检验中,p值的本质含义是()
A.原假设为真时拒绝原假设的概率
B.备择假设为真时接受原假设的概率
C.原假设为真时观察到当前或更极端结果的概率
D.备择假设为真时观察到当前结果的概率
答案:C
解析:p值是在原假设(H?)成立的前提下,出现当前样本统计量或更极端情况的概率(即P(观测值|H?为真))。选项A错误,拒绝原假设的概率是显著性水平α;选项B和D混淆了原假设与备择假设的条件概率,因此正确答案为C。
以下哪种场景最适合使用独热编码(One-HotEncoding)处理类别特征?()
A.有序类别特征(如教育程度:小学/初中/高中)
B.高基数类别特征(如地区:200个城市)
C.无序类别特征(如颜色:红/蓝/绿)
D.连续数值特征(如温度:25℃/30℃)
答案:C
解析:独热编码适用于无序类别特征,通过二进制向量表示不同类别,避免引入顺序关系。选项A的有序特征更适合标签编码(LabelEncoding);选项B的高基数特征使用独热编码会导致维度爆炸(维度=类别数),通常用目标编码或嵌入;选项D的连续特征无需编码,因此正确答案为C。
时间序列分析中,若数据呈现稳定的季节性波动(如季度性销售),且趋势不明显,最适合的模型是()
A.ARIMA(p,d,q)
B.SARIMA(p,d,q)(P,D,Q)s
C.Holt-Winters加法模型
D.指数平滑法(SES)
答案:C
解析:Holt-Winters加法模型专门用于处理包含季节性成分且趋势不显著的时间序列,其加法模式假设季节波动幅度稳定;SARIMA适用于同时有趋势和季节性的情况;ARIMA无季节性处理能力;SES仅适用于无趋势、无季节的平稳序列,因此正确答案为C。
数据清洗中,处理缺失值时“直接删除含缺失值的行”的适用条件是()
A.缺失值比例低于5%且无系统性缺失
B.缺失值比例高于30%且为随机缺失
C.缺失值与目标变量强相关
D.所有特征均存在缺失
答案:A
解析:直接删除法(列表删除)仅适用于缺失值比例极低(通常5%)且缺失是随机的(无系统性偏差),否则会导致样本信息丢失或偏差。选项B的高比例缺失应采用插补;选项C的系统性缺失需保留并分析原因;选项D的全特征缺失无法删除,因此正确答案为A。
AB测试中,若实验组与对照组的样本量差异超过10%,最可能导致的问题是()
A.统计功效降低
B.第一类错误率升高
C.第二类错误率降低
D.结果无法可视化
答案:A
解析:AB测试要求两组样本量均衡,否则统计功效(检测真实差异的能力)会降低,可能遗漏显著差异。第一类错误率(α)由显著性水平控制;第二类错误率(β)与样本量负相关,样本量不均衡会导致β升高;结果可视化与样本量无关,因此正确答案为A。
数据可视化中,“信息密度”的核心要求是()
A.图表中包含尽可能多的数据点
B.单位面积传递的有效信息量最大化
C.颜色种类与数据维度一一对应
D.图表标题包含所有分析结论
答案:B
解析:信息密度指图表中单位面积传递的有效信息量,需避免冗余元素(如过度装饰、重复标签),同时确保核心信息清晰。选项A可能导致图表混乱;选项C可能增加认知负担;选项D违背“最小化墨水比”原则,因此正确答案为B。
以下属于Spark计算模型特点的是()
A.基于磁盘的迭代计算
B.仅支持批处理
C.内存计算与RDD持久化
D.依赖HDFS作为唯一存储
答案:C
解析:Spark的核心是RDD(弹性分布式数据集),支持内存计算和持久化(Cache/Persist),显著提升迭代计算效率。选项A是HadoopMapReduce的特点;Spark支持批处理(SparkCore)、流处理(SparkStreaming)、SQL(SparkSQL)等多场景;Spark可对接HDFS、S3、本地存储等,因此正确答案为C。
业务分析中,“北极星指标”的核心特征是()
A.覆盖所有业务环节
B.反映用户长期价值
C.与公司核心目标强相关
D.统计口径复杂但精确
答案:C
解析:北极星指标(NorthStarMetric)是最能反映公司核心业务目标的单一指标(如电商的GMV、社交平台的DAU),需具备可量化、可追踪、与核心目标强相关的特点。选项A会导致指标分散;选项B是长期价值指标(如LTV)的特点;选项D违背简洁性原则,因此正确答案为C。
评估分类模型时,若样本严重不平衡(正类占比1%),最不适合的指标是()
A.F1分数
B.ROC-AUC
C.准确率(Accuracy)
D.召回率(Recall)
答案:C
解析
您可能关注的文档
- 2025年乡村振兴规划师考试题库(附答案和详细解析)(1007).docx
- 2025年企业人力资源管理师考试题库(附答案和详细解析)(1005).docx
- 2025年劳动关系协调师考试题库(附答案和详细解析)(1007).docx
- 2025年国际财资管理师(CTP)考试题库(附答案和详细解析)(1007).docx
- 2025年数据建模工程师考试题库(附答案和详细解析)(1003).docx
- 2025年智慧医疗技术员考试题库(附答案和详细解析)(1005).docx
- 2025年注册测绘师考试题库(附答案和详细解析)(1007).docx
- 2025年注册设备监理师考试题库(附答案和详细解析)(1007).docx
- 2025年短视频制作师考试题库(附答案和详细解析)(1005).docx
- 2025年社会心理服务人员考试题库(附答案和详细解析)(1004).docx
文档评论(0)