基于云计算与非负矩阵分解的数据分级聚类.docxVIP

基于云计算与非负矩阵分解的数据分级聚类.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于云计算与非负矩阵分解的数据分级聚类

基于云计算与非负矩阵分解的数据分级聚类   摘 要: 为了提高传统数据聚类算法在大数据挖掘应用中的性能,借助云计算的相关技术,并结合非负矩阵分解方法设计并实现了一种并行的数据层次聚类算法。该算法采用MapReduce编程平台,利用Hadoop的HDFS存储大容量的电信运营商数据;描述了MapReduce的数据分级聚类并行处理的工作机制与流程;通过Map和Reduce这种主?从编程模式很方便地使数据分级聚类的子任务在Hadoop的PC集群上运行。实验结果表明,该方法比传统用于数据聚类的非负矩阵方法具有更好的运行时间与加速比,能够在可以接受的时间范围内完成电信运营商的大数据处理。   关键词: 云?算; 分级聚类; MapReduce; 非负矩阵分解; 聚类算法; 并行数据   中图分类号: ?34; 文献标识码: A 文章编号: 1004?373X05?0056?05   Abstract: In order to improve the performance of traditional data clustering methods on big data mining application, a parallel data hierarchical clustering algorithm was designed and realized by means of the correlation technologies of cloud computing and non?negative matrix factorization method. The MapReduce programming platform is used in the algorithm. The HDFS based on Hadoop is used to store the large?capacity data of telecom operators. The working mechanism and flow of data hierarchical clustering based on MapReduce are described in detail. The master?slave programming mode based on Map and Reduce makes the subtask of data hierarchical clustering operating on PC clusters based on Hadoop easily. The experimental results show that, in comparison with the traditional non?negative matrix method used in data clustering, the proposed method has shorter run time and smaller speedup ratio, and can realize the big data processing of telecom operator within the acceptable time.   Keywords: cloud computing; hierarchical clustering; MapReduce; non?negative matrix factorization; clustering algorithm; parallel data   0 引 言   近年来移动互联网与物联网的急速发展积累了大量的数据资源,这些海量数据中蕴藏着大量可以应用于个性化商务的有效信息[1?3],然而传统的数据挖掘技术是主要应用于中小规模数据中的信息挖掘,为了从海量数据资源中挖掘出有用信息,必须采用新型的数据挖掘技术,其中基于多维数据相似性的数据聚类作为一种新型数据挖掘技术正好解决上述问题。   非负矩阵分解NMF方法在多维数据相似性的数据聚类、文本聚类、社交网络聚类中都得到了广泛应用,但其串行计算的时间复杂度较高,很难胜任大数据处理任务。早期在多维数据相似性的数据聚类并行处理领域中,有集群计算机与共享内存计算的方式,还有网格计算、对等计算、广域分布式计算等模式,这些模型都取得了很好的成果。但是在云计算、大数据时代,前期的分布式计算模式对海量的PB级的数据处理往往显得不足[4?5],所以基于云计算的数据分级聚类应该得到足够的重视[6]。因此本文试图探索利用云计算方式优化传统的基于非负矩阵分解的数据相似性聚类方法。   云计算中的MapReduce技术[7]最早被Google用于大数据并行处理,其

文档评论(0)

manyu + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档