Python数据分析与挖掘实战 第9章 O2O优惠券使用预测.pptxVIP

Python数据分析与挖掘实战 第9章 O2O优惠券使用预测.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

;目录;在O2O消费模式运营局面下,优惠券的合理投放成为了现在商户经营店铺的一项考虑因素,某电商平台根据自身拥有的用户消费信息数据,查看用户领取优惠券后的使用情况。;O2O消费对于用户而言,不仅可以使用户获得更为丰富、全面的商户及其服务信息内容,而且还可以使用户获得相对线下直接消费较低的价格;对于商户而言,可以获得更多、更好的宣传机会去吸引新用户到店消费,同时可以通过在线预约的方式合理安排经营节约成本。;数据说明;名称;本案例的主要目标是预测用户在领取优惠券后15天以内的使用情况,为了将该问题转化为二分类问题,将领取优惠券后15天以内使用的样本标记为正样本,记为1;15天以内没有使用的样本标记为负样本,记为0;未领取优惠券进行消费的样本为普通样本,记为-1。;根据上述的分析过程与思路,结合数据特点和分析目标,主要包括以下步骤。

读取用户真实线下消费行为历史数据。;目标

O2O优惠券使用预测总体流程如图所示。;目录;属性名称;在上面两个表中,discount_rate属性为字符型,所以不存在最大值和最小值。

训练样本的优惠券ID、优惠率、领取优惠券日期空值的记录数一致,可能是因为一部分用户没有领取优惠券而直接到门店消费;而date属性的空值数比优惠券ID的空值数多,即存在一部分用户的消费日期为空而优惠券ID不为空,这可能是因为这部分用户是领取优惠券但没有进行消费;测试样本的优惠券ID、优惠率、领取优惠券日期和消费日期均存在空值。;,;1.绘制折线图分析用户消费次数

选取领取优惠券日期、消费日期这2个属性计算用户消费次数、领劵数和领券消费数,分析用户的消费行为信息。

统计各月份的用户消费次数,并绘制2016年各月份用户消费次数折线图。

由图可知,5月份用户消费次数最多,有可能是五一节假日商户投放优惠券的优惠率较多吸引用户消费。2月份处于低谷,可能是春节长假店铺休息导致。;2.绘制柱形图分析用户领券数与领券消费数

绘制2016年各月份用户领优惠券次数和领券消费次数柱形图,如图所示。

由图可知,1月份用户领取优惠券的次数达到最高峰,可能是用户领取优惠券为春节囤年货做准备,其次是5月份用户领取优惠券数量,可能是为母亲节给母亲送礼物做准备。从用户领券消费情况看,虽然商户投放优惠券很多,但相对于投放的优惠券数量,用户很少使用优惠券到商户进行消费,说明出现了商户滥发优惠券现象。;1.绘制柱形图分析商户投放优惠券数量

统计商户投放优惠券数量、用户到门店消费的距离、用户持券与未持券到门店消费的距离等,用于分析商户投放优惠券信息。

平台有众多家商户参与优惠券投放,绘制投放优惠券数量排名前10的商户ID柱形图。

由图可知,平台有众多家商户参与优惠券投放,绘制投放优惠券数量排名前10的商户ID柱形图。ID为3381的商户投放数量高达117818张,其次是ID为760和450的商户,投放数量分别为70977张、70884张,其他商户投放优惠券数量都相对较低。;2.绘制饼图分析用户到门店消费距离

绘制饼图分析用户到门店消费的距离。

由图可知,大部分用户更偏向近距离消费,其中用户到

门店消费距离不足500m的用户占到所有用户中的68.3%,但出现4.7%的用户却选择到距离大于等于5km的门店

进行消费,可以看出这部分用户对该品牌门店的消费依赖性。;绘制饼图分别分析用户持券与没持券到门店消费的距离。

由图可知,两个饼图的分布情况类似,无论是否持券消费,大部分用户都偏向去近距离的门店消费。而只有少部分用户愿意选择去5km外的门店进行消费,说明这些用户对门店有一定的依赖性。;目录;对原始数据进行探索性分析时,发现数据存在缺失值、部分属性的数据类型不统一、数据的属性过少等问题,需要对数据进行清洗和变换。

通过对原始数据观察发现数据中存在3种数据缺失的情况:第一种是优惠券ID为null,优惠率也为null,但有消费日期,这类用户属于没有领优惠券进行消费的普通消费者;第二种是用户消费记录中同时存在优惠

券ID、优惠券率、消费日期,这类用户属于领取优惠券的消费者;第三种是用户虽然领取了商户的优惠券,但没有消费日期,可能是商户与用户的距离比较远而没使用优惠券进行消费。

优惠券的优惠率存在两种形式:一种为折扣率形式的样本,如0.8;另一种是满减优惠形式的样本,如300:30。如果该属性没有进行统一处理,可能会导致结果不准确,因此使用统一样本形式,这里的处理方法是将满减优惠统一替换成折扣率。;数据清洗具体处理方法如下:

将date_rececived和date属性的数据类型转为时间类型。

Discount_rate属性中的满减优惠统一替换成折扣率,例如,满减优惠形式“300:30”或“300:30:00”改为折扣率形式“0.9”。;1.构建用户标签

文档评论(0)

159****1944 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档