- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
2025年大学生数据分析科普竞赛题库及答案
一、数据分析基础概念题(共10题)
1.以下数据类型分类中,哪一组完全符合定类数据-定序数据-定距数据-定比数据的顺序?
A.性别(男/女)-教育程度(小学/初中/本科)-温度(℃)-体重(kg)
B.血型(A/B/O/AB)-满意度(非常不满意/一般/非常满意)-智商分数(IQ)-收入(元)
C.商品类别(食品/服饰/家电)-比赛名次(第1/第2/第3)-摄氏温度(℃)-身高(cm)
D.婚姻状态(未婚/已婚/离异)-客户等级(普通/银卡/金卡)-华氏温度(℉)-年龄(岁)
答案:D
解析:定类数据无顺序(婚姻状态),定序数据有顺序但无固定间隔(客户等级),定距数据有间隔但无绝对零点(华氏温度的0℉不代表无温度),定比数据有绝对零点(年龄0岁代表出生时刻)。A选项中教育程度的本科与初中间隔不固定;B选项智商分数属于定距(无绝对零点);C选项摄氏温度0℃是水的冰点,非绝对零点,身高是定比数据,但前两项分类有误。
2.某数据集包含100个样本,按升序排列后数值为[1,3,5,7,...,199](奇数序列),计算其四分位数Q1和Q3的值。
答案:Q1=50.5,Q3=150.5
解析:100个数据的位置索引为1-100(从1开始计数)。Q1位置=(100+1)/4=25.25,取第25和26个数的加权平均:第25个数是49(2n-1=49→n=25),第26个数是51,Q1=49+0.25(51-49)=50.5;Q3位置=3(100+1)/4=75.75,第75个数是149(n=75→275-1=149),第76个数是151,Q3=149+0.75(151-149)=150.5。
3.以下哪种数据清洗操作可能导致信息损失?
①用均值填充连续变量的缺失值
②对类别变量进行独热编码(One-HotEncoding)
③删除包含缺失值的整行数据
④对异常值进行Winsorize处理(将极端值替换为指定分位数)
答案:③
解析:删除整行数据(列删除)会直接移除样本,可能丢失其他变量的有效信息;均值填充保留样本数但可能模糊分布特征;独热编码增加维度但不损失信息;Winsorize保留样本数仅调整极端值。
二、数据分析工具与技术题(共8题)
4.给定PandasDataFrame如下(数据示例):
|用户ID|注册时间|消费金额|购买次数|会员等级(A/B/C)|
|--|-|-|-|-|
|101|2024-01-1514:30|299.5|3|A|
|102|2024-03-2009:10|NaN|0|B|
|103|2024-02-2822:45|150.0|5|C|
|...|...|...|...|...|
要求:(1)筛选2024年第一季度注册(1-3月)且购买次数≥1的用户;(2)将会员等级列转换为有序类别变量(ABC);(3)对消费金额缺失值用同等级会员的均值填充。写出完整Python代码。
答案:
```python
importpandasaspd
frompandas.api.typesimportCategoricalDtype
假设数据已读入df
(1)筛选条件
df[注册时间]=pd.to_datetime(df[注册时间])
q1_mask=(df[注册时间]=2024-01-01)(df[注册时间]=2024-03-31)
active_mask=df[购买次数]=1
filtered_df=df[q1_maskactive_mask]
(2)转换为有序类别变量
cat_type=CategoricalDtype(categories=[A,B,C],ordered=True)
filtered_df[会员等级]=filtered_df[会员等级].astype(cat_type)
(3)缺失值填充(注意:需先处理筛选后的数据中的缺失)
计算各等级消费金额均值(排除NaN)
mean_by_level=filtered_df.groupby(会员等级)[消费金额].transform(mean)
填充缺失值
filtered
您可能关注的文档
- 2025年成人高考专升本民法真题及答案.docx
- 2025年城管协管面试题及答案.docx
- 2025年乘务化妆考试题库及答案.docx
- 2025年初级社会工作者考试《社会工作实务》真题及答案.docx
- 2025年创新科技与科技发展知识考察试题及答案解析.docx
- 2025年春国开(河北)《现代产权法律制度专题》形考任务题库及答案.docx
- 2025年春季格力家用空调安装考试及答案.docx
- 2025年大连装备制造职业技术学院单招职业技能考试题库及答案.docx
- 2025年大学《运动能力开发运动生物力学》考试模拟试题及答案解析.docx
- 2025年大学本科(鞋类工程技术)鞋类设计创新综合测试题及答案.docx
- 浙江省温州市浙南名校联盟2025-2026学年高一上学期期中联考数学试题含解析.docx
- 26高考数学提分秘诀重难点34圆锥曲线中的定点、定值、定直线问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点35概率与统计的综合问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点31圆锥曲线中的切线与切点弦问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点30圆锥曲线中的弦长问题与长度和、差、商、积问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点29巧解圆锥曲线的离心率问题(举一反三专项训练)(全国通用)(含解析).docx
- 26高考数学提分秘诀重难点28直线与圆的综合(举一反三专项训练)(全国通用)(含解析).docx
- 寡核苷酸药物重复给药毒性研究技术指南.docx
- 重组溶瘤腺病毒生产质量管理标准.docx
- 26高考数学提分秘诀重难点27直线与圆中常考的最值与范围问题(举一反三专项训练)(全国通用)(含解析).docx
最近下载
- 地震逃生演练方案与实施细节.docx VIP
- brc食品质量与安全管理培训课件.pptx
- 选用教材评价表(模板).pdf VIP
- 大学英语四级考试高频词汇1500(打印版).pdf VIP
- 神经外科患者肺部管理.pptx VIP
- 淮安市实验小学四年级上学期期中数学试卷(含答案解析).doc VIP
- 2025年驾驶证三力测试题库及答案完整版.doc VIP
- 信息系统工程造价指导书(发编委版).pdf
- 地基处理技术_河海大学中国大学mooc课后章节答案期末考试题库2023年.docx VIP
- 六年级上册数学奥数试题-全国168所名牌小学小考必做的600道奥数题(十七)(无答案)人教版.doc VIP
有哪些信誉好的足球投注网站
文档评论(0)