面向高速数据流集成分类器算法.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
面向高速数据流集成分类器算法

面向高速数据流集成分类器算法   摘要:数据流挖掘要求算法在占用少量内存空间的前提下快速地处理数据并且自适应概念漂移,据此提出一种面向高速数据流的集成分类器算法。该算法将原始数据流沿着时间轴划分为若干数据块后,在各个数据块上计算所有类别的中心点和对应的子空间;此后将各个数据块上每个类别的中心点和对应的子空间集成作为分类模型,并利用统计理论的相关知识检测概念漂移,动态地调整模型。实验结果表明,该方法能够在自适应数据流概念漂移的前提下对数据流进行快速的分类,并得到较好的分类效果。   关键词:概念漂移;数据流;子空间;分类;集成   中图分类号: TP18;TP311文献标志码:A   Ensemble classification algorithm for high speed data stream   英文作者名LI Nan1,2, GUO Gong-de1,2*   英文地址(1.School of Mathematics and Computer Science, Fujian Normal University,Fuzhou Fujian 350007,China;   2.Key Laboratory of Network Security and Cryptography, Fujian Normal University,Fuzhou Fujian 350007,China)   Abstract: The algorithms for mining data streams have to make fast response and adapt to the concept drift at the premise of light demands on memory resources. This paper proposed an ensemble classification algorithm for high speed data stream. After dividing a given data stream into several data blocks, it computed the central point and subspace for every class on each block which were integrated as the classification model. Meanwhile, it made use of statistics to detect concept drift. The experimental results show that the proposed method not only classifies the data stream fast and adapt to the concept drift with higher speed, but also has a better classification performance.   Key words: concept drift; data stream; subspace; classification; integration   0引言   随着信息产业的发展,超市交易、电信等众多应用领域每天都产生大量的数据流,其中蕴含着丰富的有价值的知识有待挖掘,近年来已成为数据挖掘领域的一个研究热点。由于数据流具有快速性、无限性和实时性的特点[1],使得传统的挖掘算法显得有些力不从心。同时,数据流中隐含的概念或知识可能会随着时间的推移或环境的改变而发生变化, 即1996年Widmer和Kubat[2]提出的概念漂移问题。因此,数据流挖掘要求算法能在有限的计算时间和内???资源内完成挖掘任务,并且根据当前的概念自适应地改变模型[3]。   目前,处理数据流上概念漂移的方法有3种[4]:实例选择、实例加权和集成学习。Hansen等[5]证明使用集成分类器方法比仅使用单个分类器方法具有更好的适应性和精确性。Wang等[6]提出了一个集成学习的通用框架用于挖掘概念漂移数据流。Street等[7]提出一个可以自适应数据流概念漂移的集成分类器算法(Streaming Ensemble Algorithm, SEA),展示了集成学习的有效性。此后,许多学者深入研究了集成分类器的权值设计[8-10]以及集成策略[11-13]。   然而,上述已存在的数据流分类模型不仅构建模型耗时多,而且面临着同一个问题:当数据流中只有少部分类别发生概念漂移时,仍必须抛弃现有的整个集成分类模型进行重建以适应新的概念,降低了分类效率。针对以上问题,本文提出了一种新颖的面向

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档