2025年大学生数据分析科普竞赛题库及答案.docxVIP

2025年大学生数据分析科普竞赛题库及答案.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

2025年大学生数据分析科普竞赛题库及答案

一、数据分析基础概念题(共10题)

1.以下数据类型分类中,哪一组完全符合定类数据-定序数据-定距数据-定比数据的顺序?

A.性别(男/女)-教育程度(小学/初中/本科)-温度(℃)-体重(kg)

B.血型(A/B/O/AB)-满意度(非常不满意/一般/非常满意)-智商分数(IQ)-收入(元)

C.商品类别(食品/服饰/家电)-比赛名次(第1/第2/第3)-摄氏温度(℃)-身高(cm)

D.婚姻状态(未婚/已婚/离异)-客户等级(普通/银卡/金卡)-华氏温度(℉)-年龄(岁)

答案:D

解析:定类数据无顺序(婚姻状态),定序数据有顺序但无固定间隔(客户等级),定距数据有间隔但无绝对零点(华氏温度的0℉不代表无温度),定比数据有绝对零点(年龄0岁代表出生时刻)。A选项中教育程度的本科与初中间隔不固定;B选项智商分数属于定距(无绝对零点);C选项摄氏温度0℃是水的冰点,非绝对零点,身高是定比数据,但前两项分类有误。

2.某数据集包含100个样本,按升序排列后数值为[1,3,5,7,...,199](奇数序列),计算其四分位数Q1和Q3的值。

答案:Q1=50.5,Q3=150.5

解析:100个数据的位置索引为1-100(从1开始计数)。Q1位置=(100+1)/4=25.25,取第25和26个数的加权平均:第25个数是49(2n-1=49→n=25),第26个数是51,Q1=49+0.25(51-49)=50.5;Q3位置=3(100+1)/4=75.75,第75个数是149(n=75→275-1=149),第76个数是151,Q3=149+0.75(151-149)=150.5。

3.以下哪种数据清洗操作可能导致信息损失?

①用均值填充连续变量的缺失值

②对类别变量进行独热编码(One-HotEncoding)

③删除包含缺失值的整行数据

④对异常值进行Winsorize处理(将极端值替换为指定分位数)

答案:③

解析:删除整行数据(列删除)会直接移除样本,可能丢失其他变量的有效信息;均值填充保留样本数但可能模糊分布特征;独热编码增加维度但不损失信息;Winsorize保留样本数仅调整极端值。

二、数据分析工具与技术题(共8题)

4.给定PandasDataFrame如下(数据示例):

|用户ID|注册时间|消费金额|购买次数|会员等级(A/B/C)|

|--|-|-|-|-|

|101|2024-01-1514:30|299.5|3|A|

|102|2024-03-2009:10|NaN|0|B|

|103|2024-02-2822:45|150.0|5|C|

|...|...|...|...|...|

要求:(1)筛选2024年第一季度注册(1-3月)且购买次数≥1的用户;(2)将会员等级列转换为有序类别变量(ABC);(3)对消费金额缺失值用同等级会员的均值填充。写出完整Python代码。

答案:

```python

importpandasaspd

frompandas.api.typesimportCategoricalDtype

假设数据已读入df

(1)筛选条件

df[注册时间]=pd.to_datetime(df[注册时间])

q1_mask=(df[注册时间]=2024-01-01)(df[注册时间]=2024-03-31)

active_mask=df[购买次数]=1

filtered_df=df[q1_maskactive_mask]

(2)转换为有序类别变量

cat_type=CategoricalDtype(categories=[A,B,C],ordered=True)

filtered_df[会员等级]=filtered_df[会员等级].astype(cat_type)

(3)缺失值填充(注意:需先处理筛选后的数据中的缺失)

计算各等级消费金额均值(排除NaN)

mean_by_level=filtered_df.groupby(会员等级)[消费金额].transform(mean)

填充缺失值

filtered

您可能关注的文档

文档评论(0)

ꪗꪖꪑ + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档