1+X商务数据分析模拟练习题及答案.docxVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

1+X商务数据分析模拟练习题及答案

一、模拟练习题

题目1:数据清洗与预处理(20分)

某母婴电商平台2023年1-12月用户消费数据(数据文件:maternal_sales.csv)包含以下字段:用户ID(user_id)、年龄(age)、性别(gender,1=男,2=女)、地域(region,1=华东,2=华南,3=华北,4=西南)、下单时间(order_time)、商品类别(category,1=奶粉,2=尿布,3=玩具,4=童装)、客单价(price,元)、购买次数(purchase_times)、优惠券金额(coupon,元)、是否参与促销(promotion,0=否,1=是)。

给定数据中存在以下问题,请完成数据清洗与预处理:

(1)age字段有15条记录为“-”(缺失值),且存在3条记录年龄为“6”和“65”(超出合理范围,母婴用户年龄通常为20-45岁);

(2)price字段有20条记录为“0”(可能为测试订单),5条记录为“10000”(远高于日常客单价,平台历史客单价均值为320元,标准差为80元);

(3)category字段有8条记录为“5”(无对应类别);

(4)promotion字段有10条记录为“NULL”(缺失值)。

要求:给出具体清洗步骤及Python代码(使用pandas库),并说明处理逻辑。

题目2:描述性统计分析(25分)

基于清洗后的数据,完成以下分析:

(1)计算用户年龄的均值、中位数、众数,绘制年龄分布直方图(分组间隔5岁),并描述年龄分布特征;

(2)统计不同商品类别的销售额占比(销售额=客单价×购买次数),并绘制饼图展示;

(3)计算参与促销与未参与促销用户的客单价均值差异(t检验,α=0.05),并解释结果;

(4)统计各月订单量(1-12月),绘制折线图展示月度趋势,并分析可能的原因。

题目3:可视化与相关性分析(25分)

(1)使用热力图展示以下变量的相关性:age、price、purchase_times、coupon;

(2)绘制地域(region)与商品类别(category)的交叉条形图(x轴为地域,分面展示各商品类别销量),并分析地域消费偏好;

(3)绘制优惠券金额(coupon)与客单价(price)的散点图,添加拟合线,说明两者关系;

(4)基于下单时间(order_time)提取“小时”字段(如10:30:00提取为10),绘制小时订单量的柱状图,总结用户下单的时间规律。

题目4:预测模型构建(30分)

以“销售额”(因变量,销售额=客单价×购买次数)为目标变量,选择以下自变量:age、coupon、purchase_times、promotion(虚拟变量)、region(虚拟变量)。要求:

(1)说明自变量筛选的逻辑(如多重共线性检验);

(2)构建线性回归模型,输出回归方程、R2值、显著性检验结果;

(3)使用2023年1-11月数据训练模型,12月数据验证,计算MAE(平均绝对误差)和RMSE(均方根误差);

(4)基于模型结果,提出提升销售额的3条业务建议。

二、模拟练习题答案

题目1答案:数据清洗与预处理

处理步骤及逻辑:

1.处理age字段缺失值与异常值:

-缺失值:15条“-”记录,因缺失比例低(假设总数据量1000条),直接删除缺失行。

-异常值:年龄6岁(未成年人)和65岁(超出目标用户范围),标记为异常。根据业务经验,用年龄均值(20-45岁)填充或删除。此处选择删除(因异常值仅3条)。

2.处理price字段异常值:

-0元订单:可能为测试或赠品,无实际销售意义,删除20条记录。

-10000元订单:计算Z-score=(10000-320)/80≈121,远大于3σ原则(Z3),判定为异常值,删除5条记录。

3.处理category字段错误值:

-类别“5”无对应定义,视为错误数据,删除8条记录(或根据业务补充定义,此处无信息,故删除)。

4.处理promotion字段缺失值:

-10条“NULL”记录,缺失比例低,删除或用众数填充(此处promotion为0/1二分类,众数为0,填充为0)。

Python代码示例:

```python

importpandasaspd

importnumpyasnp

读取数据

df=pd.read_csv(maternal_sales.csv)

处理age字段

df[age]=pd.to_numeric(df[age]

文档评论(0)

yclsht + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档