- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
云计算环境下的数据挖掘110415
云计算环境下的数据挖掘 计算机与信息工程学院 上海电力学院 云计算 IBM、Google、Yahoo、Amazon、Sum和Microsoft等知名IT厂商们依据各自的优势、定位、核心策略和技术基础,纷纷推出了自己的云计算计划; 开源为大家打开了一扇详细了解云计算的窗口,提供了免费下载云计算平台的来源,这其中犹以Apache开源组织所开发的hadoop框架最为经典,使用最为广泛。 云计算研究现状 云计算这一概念,最初由Google提出; Google于2007年10月推出了“消费云”计划; IBM于2007年8月推出了“蓝云”计划; Amazon于2007年推出了“弹性云”计划; 微软开发了自身的云计算平台Scope (Sturctured Computations Optimized for Parallel Execution)和推出了Midori计划; SUM推出了Network. com计划和Black Box计划; Yahoo则以支持开源的方式展开自己的云计算计划。 云计算研究现状 清华大学于2004年前后提出的透明计算平台; 广东电子工业研究所于2008年II月宣布要建国内第一个云计算平台cisJ; 2008年初IBM与无锡市政府合作建立了无锡软件园云计算中心; 2008年7月份瑞星推了“云安全”计划; 另外包括中国移动在内的电信运营商也都纷纷布局云计算。 云计算的产生 在21世纪初期,Web2.O的兴起使网络迎来了一个新的发展高峰。 Web2.O时代许多网站的访问量,已经远远超过传统门户网站,用户数量之多,参与程度之高,都是前所未有的。 怎样为庞大的用户群体提供方便、快捷的服务,成为这些网站急欲解决的难题。 而同时代的Google做得很成功,以Google文件系统为基础搭建起来的Google机器集群,为Google提供了极快的有哪些信誉好的足球投注网站速度和强大的处理能力。 如何有效利用此类技术,为更多的企业或个人提供强大的计算能力和服务,就成了Google这种拥有丰厚资源和庞大业务的企业所深深思考的问题。 正是由于一方对海量数据处理和海量计算能力的强劲需求,而另一方能够提供这种能力,所以云计算应运而生。 云计算应用领域与场景 云计算的关键技术 数据存储、 数据管理、 编程模式。 数据存储 分布式存储方式; 采用冗余存储方式保证存储数据的可靠性,即为同一份数据存储多个副本; 具有高吞吐率和高传输率的特点 主要数据存储技术 非开源的GFS ( Google File System) Hadoop的GFS的开源实现HDFS(Hadoop Distributed File System) 主要数据存储技术 非开源的GFS ( Google File System) Hadoop的GFS的开源实现HDFS(Hadoop Distributed File System) 数据管理 云计算的特点:数据的读操作频率远大于数据的更新频率 采用数掘库领域中列存储的数据管理模式,将表按列划分后存储。 主要数据管理技术 谷歌的BigTable 主要编程模式 Google的MapReduce 为什么要研究云环境下的数据挖掘? 不仅仅只有互联网会遇到海量数据处理和计算的难题,数据挖掘领域也经常会遇到同样的问题,这使得许多现有数据挖掘算法面临很大的限制,无法处理输入数据量或是计算量巨大的情况,云计算擅长处理这类问题,这为在诸多数据挖掘算法中引入云计算概念,利用云计算平台解决数据挖掘领域实际问题带来了希望。 云计算环境下数据挖掘的核心 在数据挖掘领域中引入云计算思维,主要在于实现相关数据挖掘算法的并行化,使之能够借助云计算平台高速地处理海量数据和进行海量计算。 并行化不同点 如何编写在云平台上运行的并行化程序是很有讲究的: 它不同于以往的单机编程模武,不但要服从一定云计算框架的限制,更重要的是要将算法合理地并行化。算法能否有效并行化,成了其能否在云平台上高效运行的关键所在。 以往算法并行化往往只关注多线程并局限于单机内,但云计算思维下的并行化不同于以往模式,它注重多机间,甚至机器集群间的并行化。 因此如何在云计算平台框架下将算法并行化是一个很值得研究的问题。 并行与分布 并行和分布是云计算的关键,分布式存储和分布式计算是分布式系统的两大核心。 分布式系统遵循:大任务——任务分割——分散并行处理——归约分结果——输出最终结果这一抽象流程。 分散存储和并行计算是上述过程的重头戏。 Google云计算平台 “Google三宝”: Google分布式文件系统“GFS”、 Google分布式数据库“BigTable Google分布式算法模型“MapReduce算法” GFS体系结构 GFS和传统分布式文件系统的对比 GFS GFS系统由一个Master和大量
文档评论(0)