基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云(免积分)基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云(免积分).docVIP

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云(免积分)基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云(免积分).doc

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云(免积分)基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云(免积分)

基于Hadoop平台的并行数据挖掘算法工具箱与数据挖掘云 来源:南京大学计算机科学与技术系 作者:高 阳,杨育彬,商 琳 时间:2011-06-27 浏览次数:60 一 基于云计算的海量数据挖掘 2008年7 月,《Communications of the ACM》杂志发表了关于云计算的专辑,云计算因其清晰的商业模式而受到广泛关注,并得到工业和学术界的普遍认可。目前工业界推出的云计算平台有Amazon公司的EC2和S3,Google公司的Google Apps Engine, IBM公司的Blue Cloud,Microsoft公司的Windows Azure, Salesforce公司的Sales Force, VMware公司的vCloud,Apache软件开源组织的Hadoop等。在国内,IBM与无锡市共建了云计算中心,中石化集团成功应用IBM的云计算方案建立起一个企业云计算平台。阿里巴巴集团于2009年初在南京建立电子商务云计算中心。 严格的讲,云计算是一种新颖的商业计算模型,它可以将计算任务分布在大量互连的计算机上,使各种应用系统能够根据需要获取计算资源、存储资源和其他服务资源。Google公司的云平台是最具代表性的云计算技术之一,包括四个方面的主要技术:Google文件系统GFS、并行计算模型MapReduce、结构化数据表BigTable和分布式的锁管理Chubby。基于以上技术,云计算可以为海量数据处理和分析提供一种高效的计算平台。简单来说,将海量数据分解为相同大小、分布存储,然后采用MapReduce模型进行并行化编程,这种技术使Google公司在有哪些信誉好的足球投注网站引擎应用中得到了极大的成功。 然而MapReduce计算模型适合结构一致的海量数据,且要求计算简单。对于大量的数据密集型应用(如数据挖掘任务),往往涉及到数据降维、程序迭代、 近似求解等等复杂的算法,计算非常困难。因此,基于云计算的海量数据挖掘技术成为了工业界和学术界共同关心的热点技术之一。 分布式计算是解决海量数据挖掘任务,提高海量数据挖掘效率的方法之一。目前,分布式数据挖掘技术主要有基于主体(agent)的分布式数据挖掘、基于网格的分布式数据挖掘、基于云的分布式数据挖掘等。海量数据挖掘另一个核心问题是数据挖掘算法的并行化。图1给出基于云计算的海量数据挖掘服务的层次结构图。 图1 基于云计算的海量数据挖掘服务的层次结构图 中国移动研究院从2007年3月份启动“大云”的研发工作。2008年,中国移动研究院已建设有256个节点、1024个CPU、256TB存储的云平台。中国移动“大云”平台主要为数据挖掘、系统评估、有哪些信誉好的足球投注网站等应用提供计算服务。在开源 Hadoop云平台上,中科院计算所研制了并行数据挖掘工具平台PDMiner。针对海量数据,云计算分别从数据挖掘模式和方法等方面进行相关的研究。与此同时,中科院深圳先进研究院还研制了一个分布式数据挖掘系统AlphaMiner。 本文首先讨论了海量数据挖掘的研究热点;其次基于开放的Hadoop平台,讨论并行数据挖掘算法工具箱和数据挖掘云的设计。 二 技术热点 云计算是一种资源利用模式,它能以简便的途径和以按需的方式通过网络访问可配置的计算资源,快速部署资源。在这种模式中,应用、数据和资源以服务的方式通过网络提供给用户使用。大量的计算资源组成资源池,用于动态创建高度虚拟化的资源以供用户使用。但对于海量数据分析任务,云平台缺乏针对海量数据挖掘和分析算法的并行化实现。因此面向海量数据挖掘的新型云计算模式,主要包括海量数据预处理、适合于云计算的海量数据挖掘并行算法、新型海量数据挖掘方法和云计算数据挖掘工具箱等技术。 (1)海量数据预处理。为了适合并行处理,云平台应可以提供海量数据的概念分层组织以及海量数据的并行加载;并实现高维度约减和数据稀疏化技术,提高数据管理和挖掘的效率。 (2)适合于云计算的海量数据挖掘并行算法。海量数据挖掘的关键问题是数据挖掘算法的并行化。而云计算采用MapReduce 等新型计算模型,这意味着现有的数据挖掘算法和并行化策略不能直接应用于云计算平台下进行海量数据挖掘,需要进行一定的改造。因此需要深入研究数据挖掘算法的并行化策略,继而实现高效的云计算并行海量数据挖掘算法。并行海量数据挖掘算法包括并行关联规则算法、并行分类算法和并行聚类算法,用于分类或预测模型、数据总结、数据聚类、关联规则、序列模式、依赖关系或依赖模型、异常和趋势发现等。在此基础上,针对海量数据挖掘算法的特点对已有的云计算模型进行优化和扩充,使其更适用于海量数据挖掘。 (3)新型海量数据挖掘方法。新型海量数据挖掘方法包含面向同构数据、异构数据和跨域数据的不同的数据挖掘新方法。在同构海量数据挖掘系统中,各个节点存储的数据

您可能关注的文档

文档评论(0)

cduutang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档