2025年大学生数据分析科普竞赛题库及答案.docxVIP

下载本文档

0
0
约6.46千字
约 15页
2025-11-29 发布于广东
举报
版权申诉

2025年大学生数据分析科普竞赛题库及答案.docx

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2025年大学生数据分析科普竞赛题库及答案

一、数据分析基础概念题（共10题）

1.以下数据类型分类中，哪一组完全符合定类数据-定序数据-定距数据-定比数据的顺序？

A.性别（男/女）-教育程度（小学/初中/本科）-温度（℃）-体重（kg）

B.血型（A/B/O/AB）-满意度（非常不满意/一般/非常满意）-智商分数（IQ）-收入（元）

C.商品类别（食品/服饰/家电）-比赛名次（第1/第2/第3）-摄氏温度（℃）-身高（cm）

D.婚姻状态（未婚/已婚/离异）-客户等级（普通/银卡/金卡）-华氏温度（℉）-年龄（岁）

答案：D

解析：定类数据无顺序（婚姻状态），定序数据有顺序但无固定间隔（客户等级），定距数据有间隔但无绝对零点（华氏温度的0℉不代表无温度），定比数据有绝对零点（年龄0岁代表出生时刻）。A选项中教育程度的本科与初中间隔不固定；B选项智商分数属于定距（无绝对零点）；C选项摄氏温度0℃是水的冰点，非绝对零点，身高是定比数据，但前两项分类有误。

2.某数据集包含100个样本，按升序排列后数值为[1,3,5,7,...,199]（奇数序列），计算其四分位数Q1和Q3的值。

答案：Q1=50.5，Q3=150.5

解析：100个数据的位置索引为1-100（从1开始计数）。Q1位置=(100+1)/4=25.25，取第25和26个数的加权平均：第25个数是49（2n-1=49→n=25），第26个数是51，Q1=49+0.25(51-49)=50.5；Q3位置=3(100+1)/4=75.75，第75个数是149（n=75→275-1=149），第76个数是151，Q3=149+0.75(151-149)=150.5。

3.以下哪种数据清洗操作可能导致信息损失？

①用均值填充连续变量的缺失值

②对类别变量进行独热编码（One-HotEncoding）

③删除包含缺失值的整行数据

④对异常值进行Winsorize处理（将极端值替换为指定分位数）

答案：③

解析：删除整行数据（列删除）会直接移除样本，可能丢失其他变量的有效信息；均值填充保留样本数但可能模糊分布特征；独热编码增加维度但不损失信息；Winsorize保留样本数仅调整极端值。

二、数据分析工具与技术题（共8题）

4.给定PandasDataFrame如下（数据示例）：

|--|-|-|-|-|

|101|2024-01-1514:30|299.5|3|A|

|102|2024-03-2009:10|NaN|0|B|

|103|2024-02-2822:45|150.0|5|C|

|...|...|...|...|...|

要求：（1）筛选2024年第一季度注册（1-3月）且购买次数≥1的用户；（2）将会员等级列转换为有序类别变量（ABC）；（3）对消费金额缺失值用同等级会员的均值填充。写出完整Python代码。

答案：

```python

importpandasaspd

frompandas.api.typesimportCategoricalDtype

假设数据已读入df

(1)筛选条件

df[注册时间]=pd.to_datetime(df[注册时间])

q1_mask=(df[注册时间]=2024-01-01)(df[注册时间]=2024-03-31)

active_mask=df[购买次数]=1

filtered_df=df[q1_maskactive_mask]

(2)转换为有序类别变量

cat_type=CategoricalDtype(categories=[A,B,C],ordered=True)

filtered_df[会员等级]=filtered_df[会员等级].astype(cat_type)

(3)缺失值填充（注意：需先处理筛选后的数据中的缺失）

计算各等级消费金额均值（排除NaN）

mean_by_level=filtered_df.groupby(会员等级)[消费金额].transform(mean)

填充缺失值

filtered

您可能关注的文档

文档评论（0）

ꪗꪖꪑ + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

2025年大学生数据分析科普竞赛题库及答案.docxVIP