数据挖掘技术在商品销售预测方面应用.docVIP

数据挖掘技术在商品销售预测方面应用.doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘技术在商品销售预测方面应用

数据挖掘技术在商品销售预测方面应用   [摘要] 本文主要从商品销售的同周期或近期销售的海量数据出发,把每一条购买记录做为一个事物,构成事务数据库,给定一个频率阙值,利用Apriori算法或改进算法,求出事物数据库的频繁项集,在频繁项集中,一方面可以统计出频率高的商品,进而可以对这些商品销售做出相应策略;另一方面,笔者又对频繁项集构成的商品样本集合进行归类,为决策者提供商品销售周期短的一些分类商品数据。   [关健词] 商品销售 频繁项集 Apriori算法      在商品销售理论中的著名“自然选择论”,是以达尔文的“适者生存”为基础的,认为商品销售的发展必须与社会环境相适应,只有那些能够适应消费者需求,适应社会、文化和法律环境变化的销售商才能生存下来。   一、引言   市场之所以可以被预测,是因为人们通过长期的认识,积累起丰富的经验和知识,可以逐步了解市场变化规律;然后,凭借各种先进的科学手段,根据市场发展历史和现状,推演市场发展的趋势,做出相应的估计和推测。尽管市场瞬息万变,但这种发展变化在长期的过程中也存在一些规律性(如竞争规律、价值规律等),可以被人们所认识。任何事物都不可能孤立存在,都是与周围的各种事物相互制约、相互促进的;许多事物相互之间在结构、模式、性质、发展趋势等方面客观存在着相似之处。根据这种相似性,人们可以在已知某一事物的发展变化情况的基础上,通过类推的方法推演出相似事物未来可能的发展趋势。   本文从零售商品销售的记录出发,把每一条用户购买的商品记录作为一个事务,将一连续的时间(时间区段可由具体商品系列而定)段的记录作为事务数据库,利用Apriori的算法或改进算法找出频繁项集的集合L。一方面由频繁项集的每个事务可以确定客户购买的商品的组合,以实现“购物蓝”预测(笔者在其它地方讨论);另一方面本文主要讨论将频繁项集的商品做为样品并入到同一个样品库K中(重复的去掉),用聚类的k中心点算法将K分成k个小类。给定一个距离阙值,利用距离函数将总商品全域M中的商品分成k(去掉距中心点距离超过阙值的商品)个大类,本模型比较适合于流动人口购买力弱的商业环境。   二、使用事务数据库求频繁项集L   顾客购买的商品在收款机打印出的一张票的全部商品的集合定义为一个事务,它作为一条记录存储到事务数据库中。一个事务内的一件商品定义为一个项,项的集合称为项集,包含k项的集合称为k-项集。把事物数据库做为候选项集找频繁项集的最有代表性的算法是Aprior算法,近几年该算法不断有人优化和改进,如N.Pasquier等提出了用于挖掘频繁闭项集的算法,优化了Apriori算法;M.J.Zaki等提出的基于内存的频繁闭项集的CHARM算法等。我们可以利用上述算法在事务数据库找出频繁项集的集合L。   三、商品分类的定义及关键技术   1.商品的向量化表示   商品可以采用向量空间模型,其出发点是:每个商品都包含一些用概念词表达的揭示其内容的独立属性或者有些商品还标有其各种原料的组成成份及百分比,而每个属性都可以看成是概念空间的一个维数,这些独立属性称为商品特征项(常见的特征项类型有名称、组成成份、短语描述等,现有的研究认为以词为单位来进行处理比较合理) ,则商品就可以表示为这些特征项的集合。因此商品就可以表示成形如d =(t1,w1;t2,w2;……tn,wn),其中ti为特征项, wi为其对应的权重(在商品组成成分中可以看做所占百分比)。权重值大的特征项对区别商品具有重要的意义。如酒类商品中的酒精度,糖类商品中的糖份,衣服商品类中的面料、做工、品牌、式样。   2.特征抽取与选择   特征抽取一般是通过构造一个特征评分函数,把测量空间的数据投影到特征空间,得到在特征空间的值,然后根据特征空间中的值对每个特征进行评估,它可以看作是从测量空间到特征空间的一种映射或变换。特征选择就是根据特征评估结果从中选出最优的且最有代表性的特征子集作为该类的类别特征。因此,特征提取与选择是训练集中商品共性与规则的归纳过程,是商品分类中最关键的问题,它可以降低特征空间的维数,从而达到降低计算复杂度和提高分类准确率的目的。   常用的特征评分函数有:互信息、信息增益、期望交叉熵等等,大量的研究表明采用互信息算法效果明显优于其它算法。互信息是统计学和信息论中一个重要的概念,它表征了两个统计量间相互关联的程度,关联程度越高,互信息越大,反之亦然。   3.商品分类的方法   基于向量空间模型的分类方法有类中心分类法,贝叶斯算法、KNN 算法和神经网络算法等。其中类中心分类法应用地比较广泛,在向量空间模型中,我们把商品和类别都表示为空间中的一个点向量,商品向量和类别向量之间就存在空间上的距离远近,而这种距离就可以采用向量间夹角

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档