XGBoost算法在电子商务商品推荐中应用.docVIP

XGBoost算法在电子商务商品推荐中应用.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XGBoost算法在电子商务商品推荐中应用

XGBoost算法在电子商务商品推荐中应用   摘 要:近年来,在电子商务网站进行在线购物已逐渐成为人们主要的购物途径之一。在在线购物过程中,人们会留下大量的浏览信息,但只有极少数会转化为购买。对用户信息进行数据挖掘,个性化向用户推荐商品可以有效提高用户的购物效率并提高商家的收入。XGBoost算法是一种高效准确的分类算法,文中将XGBoost算法应用于商品推荐中,从而实现了准确预测用户购买行为的目的,为商品推荐提供了一种有效的方法 关键词:电子商务;大数据;推荐算法;分类 中图分类号:TP39 文献标识码:A 文章编号:2095-1302(2017)02-0-03 0 引 言 近年来,在电子商务网站进行在线购物逐渐成为人们新的购物习惯。在线购物过程中,人们在最终决定购买某种商品前,通常会在电子商务平台留下大量的信息,这些信息通常反映了用户购物的行为模式。通过数据挖掘方法来分析用户的行为模式数据,有利于更好地了解用户的购物习惯和倾向性,从而为预测用户的购买行为提供可能[1]。准确预测用户的购物行为对电子商务平台而言具有重要意义,通过预测结果可以个性化地向用户推荐商品,提高用户的购物效率,促成更多交易,提高营业收入。因此,国内外大型电子商务企业都不同程度上运用了商品推荐算法,学者也将统计和机器学习方法用于商品推?]的研究中,以期提高预测的准确度 雷名龙[2]分别采用随机森林、逻辑回归和SVM分类模型,以阿里巴巴电子商务平台4个月的购物数据为研究对象,对用户未来是否会购买某种商品做出行为预测,超过5%的准确率。张春生等[3]考察了品牌可信度、价格、付款人数等多种评价指标对于用户购买行为的相关性。Vieira等[4]采用深度置信网络和自编码器等深度学习策略,就筛选出的商品及用户特征进行建模,将其与传统的决定树、随机森林等算法进行比较,发现深度学习方法有利于获得更好的预测结果。马月坤等[5]采用构建用户行为知识库的方法,对客户的行为信息进行了有效存储和更新管理 eXtreme Gradient Boosting (XGBoost)[6]是一种基于梯度Boosting的集成学习算法,其原理是通过弱分类器的迭代计算实现准确的分类效果。梯度Boosting因其分类的高效性和准确性被广泛应用于人脸识别[7]、火灾识别[8]、列车停车[9]等诸多方面。本文将XGBoost引入到电子商务的商品推荐算法中,挖掘用户在电子商务平台的行为数据信息,建立分类预测模型,从而个性化地向用户推荐商品。结果表明,与传统机器学习算法相比,XGBoost具有速度快、准确度高等优势 1 数据描述 本文所使用的数据来自阿里巴巴天池大数据竞赛公开数据集,包含20 000名用户某年11月18日至12月18日一个月的完整行为数据。每条购物行为包含4个字段,分别为用户ID、品牌ID、用户对商品的交互行为和行为时间。用户与商品的交互行为分为“浏览”、“收藏”、“加入购物车”和“购买” 1.1 异常值剔除 异常值的存在通常会严重影响建模和预测质量[10],因此有必要对数据中存在的异常值进行剔除。获取的数据时间内包含淘宝“双12”购物节,当日用户的总浏览、收藏、加入购物车和购买总次数分别为往日均值的1.8、1.4、2.4和4.5倍,属于明显异常值,因此当日的全部数据在后续处理过程中被剔除。此外,在1个月内无购买记录的用户可能不具备在线购物习惯,此类用户对于预测建模不具备参考价值,因此此类数据也被剔除 1.2 特征筛选 原始数据无法直接用于建模,因此需要将其归纳为统计特征。特征的筛选需要能够充分描述商品信息、用户信息及用户-商品的交互情况。因此我们使用的特征如表1所列 在表1中,商品特征主要反映了商品的热度,通常交互和购买次数高的商品具有更高的性价比,因此能够吸引用户的购买。用户特征则主要反映了用户的购物习惯,如其购物频率以及用户更多选择冲动购物还是反复迟疑后才会购买。交互特征则更多考虑到用户与商品之间的交互行为。通常在购物过程中,用户会将某商品与同类商品比较后才会选择是否购买,因此用户与同类商品的交互行为也应被考察 1.3 样本划分 由于数据总量较大,在处理过程中仅使用部分样本进行建模。同时,第25天的数据由于异常值已被剔除,应尽量消除其影响。因此,我们选择第8、15、22天的数据,每天抽取2万个样本作为训练集。训练集的每个样本由一个用户-商品对组成。特征的统计涉及到前三天的信息,因此这样划分样本比较具有代表性。选择第23天的6万个样本作为测试集。在训练集的6万个样本中,阳性样本为100个,而在测试集的6万个样本中,阳性样本为112个。可以看出,样本具有高度的不平衡性。这是因为用户会浏览大量的商品,但其中转化为

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档