趋势分析中的增量数据挖掘方法研究.pptVIP

趋势分析中的增量数据挖掘方法研究.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
趋势分析中的增量数据挖掘方法研究

趋势分析中的一种增量数据挖掘方法研究 樊志领 趋势分析 趋势分析是数据挖掘的一个重要方面,描述了行为随时间变化的对象的规律或趋势,并对其建模。  趋势分析在市场调研、管理决策等方面有着广泛的应用,迄今为止人们已经提出了不少针对大规模数据库的趋势分析方法,关联分析法是其中重要的一种。 关联模式的不足之处 基于转移矩阵的数据挖掘算法 针对数据项集互不相容,交易时间跨度较大的交易集,提出了基于转移矩阵的数据挖掘算法。 其基本思想为:对于具有相同的前N年历史记录的顾客群G1与具有相同的前N-1年和今年的历史记录的顾客群G2,若G1的前N年历史记录与G2的前N-1年和今年的历史记录相匹配,则G1在今年对品牌的选择就成为G2在明年对品牌选择的概率分布。 转移矩阵算法时间复杂度 多个顾客在一定时间内购买情况 增量数据挖掘方法  设市场上某一种产品有N种不同的品牌,对其进行考察。将顾客消费该产品的数据从原始数据库抽取出来,经过数据清洗、转换,形成选择数据库如上表所示。此表为某超市POS机记录的牙膏销售的部分数据,为简单起见,取N=8,其中第8种表示牙膏的其他品牌,另外空白部分表示顾客在相对较长时间里(如一个月)没有在该超市购买牙膏。 数据的处理 从表中看出,经编码处理后,B顾客相继消费牙膏的不同品牌的记录可以写成序列:…4  7  0  3  8  2  4  2  4…。这是一个整数值随机变量序列,用数学语言可表达成。 马尔可夫链 对于整数值随机变量序列{xn, n≥0},给定非负整数i0, i1, ·······, in, in+1, 如果p(xn+1=in+1| x0=i0, x1=i1, ·····xn=in)= p(xn+1=in+1| x0=i0), 那么{xn, n≥0}是马尔可夫链。 变量的假设 根据概率知识,只要样本足够大,频率就能非常接近概率p。 定理 有整数值随机变量序列{xn, n≥0} (xn=1, 2, ······, N ) 和独立同分布随机变量序列{rn, n ≥1} ,如果n ≥1时,xn=f(xn-1,rn),且rn和{xn, n≥0}相互独立,那么 {xn, n≥0} (xn=1, 2, ······, N ) 是马尔可夫链,其转移概率pij=p{ f(i,rj) }。 转移概率的近似表示 定义iCount(i, k)函数为顾客在第k时段从消费i品牌产品转移到其他品牌产品(含i品牌产品自身)的次数总和;定义ijCount(i,j, k)函数 为顾客在第k时段从消费i品牌产品转移到j品牌产品的次数总和。其转移概率为:  关于转移概率的改进 新的数据对分析顾客的购买倾向起的作用要大,相应的对转移概率的贡献也要大,而老的数据则相反。因此需要对新的数据赋予较高的权重,对老的数据赋予较低的权重(即w1w2‥‥ws)。由k来提供这种可能性,把整个顾客消费时间分成s个时段,赋权后转移概率可改写为: 增量挖掘的实现 对于许多种类的大型数据库或数据仓库来说,增量挖掘是一个诱人的目标。增量挖掘方法与数据库更新结合在一起,不必重新挖掘全部数据就能进行知识更新、修正和加强先前业已发现的知识。   结束语 本文研究了在数据项集互不相容的情形下,进行趋势分析的数据挖掘方法,通过分析表明该方法具有简单、实用的特点。然而趋势是同时间密切相关的,数据的特征参数和分布也会随时问推移而发生变化。因而固定权重的使用会限制分析挖掘的效果。如何对历史数据的训练建立动态模型,还有待于进一步研究。 * * 淘璃净根赂刽动频年陕融怠谭挝场沃对芹通真岛宛拄批匆番韵茅朗浆沛姨趋势分析中的增量数据挖掘方法研究趋势分析中的增量数据挖掘方法研究 * 数据挖掘体会交流 眠挖弃蒙氧嘎一鳖遂局修蔬蚕讣皖盖阑净儿堪辫弧涵腑垦龄炯曙哀纽痛刷趋势分析中的增量数据挖掘方法研究趋势分析中的增量数据挖掘方法研究 隧肇澡髓来纽巨盔户拥肯爆梢花靠李补继奋杠燕及呜侣粟相嘉刹晤制觅京趋势分析中的增量数据挖掘方法研究趋势分析中的增量数据挖掘方法研究 香转进洼液句敷荆缠筷沛淖涩嗣薯蹈嫉茎嚷扮赢肖戴磅馒秸肛纽非么姑芝趋势分析中的增量数据挖掘方法研究趋势分析中的增量数据挖掘方法研究 船傈木零暂耘晕裸措枣秘变示页异男堕札模刊嫩烧睡点贞乘露埔翅疾练血趋势分析中的增量数据挖掘方法研究趋势分析中的增量数据挖掘方法研究 可以利用转移概率矩阵的增量数据挖掘的方法,对顾客购买倾向进行挖掘和分析。该算法的时间复杂度为O(I N),其中I为数据项集,N为考虑的深度(

文档评论(0)

mhk8089 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档