- 1、本文档共6页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云计算环境下大数据分布规律结构优化设计
云计算环境下大数据分布规律结构优化设计 摘 要当前,随着互联网技术的不断发展,数据的规模扩大、类型增加,走向了前所未有的大数据时代。而云计算作为一种新型的信息模式,以其特有的优势,得到学术界和企业界的广泛关注,为大数据服务的发展奠定了良好的基础。然而,由于目前尚未形成有效的运行机制,云计算环境下大数据分布不完全合理,因此,本文通过简要描述云计算和大数据的概念及特征,提出基于模糊聚类分析的云计算环境下大数据分布规律的结构优化设计
【关键词】云计算环境 大数据 分布规律 模糊聚类方法
1 引言
云计算服务的兴起为大数据的应用提供了保障,在考虑其性能和成本的前提下,越来越多的企业考虑将大数据处理的相关应用转移到云计算环境下进行。在此背景下,学术界和企业界掀起了对云计算环境下大数据分布规律的结构优化设计方法的研究热潮,并获得了众多研究成果,其中最为常见的方法包括模糊聚类方法、详细度量方法和最小二乘法等
2 云计算与大数据概述
2.1 云计算
云计算是指以互联网为基础,对所需资源进行随时随地的访问和分享,是当前一种依靠互联网技术的全新计算模式,其主要特征包括IT资源服务化、泛在接入、服务可计费、按需自服务及弹性服务,其本质是通过IT资源服务化的特征在互联网上以泛在接入和服务可计费的方式,向用户提供按需自服务式的弹性服务。由此得知,由于其IT资源服务化特征,在大规模应用计算时,云计算可提供资源保障;由于其所有过程皆是通过互联网手段,用?粼诩焖魇?据时,云计算可提供按需自服务式的弹性服务;由于其泛在接入特征,用户可随时随地利用互联网在移动终端上访问或共享数据
2.2 大数据
简单来说,大数据就是指规模庞大的数据。但由于互联网技术还在进一步更新和发展中,数据的规模和种类也在快速扩大和增加,不同的组织也因各自不同的需求对大数据有着不同的认识和理解,所以学术界尚不能对大数据进行统一定义。目前,由于IBM提出的大数据3V模型定义对大数据特征进行了形象的描述,而最能被人们普遍接受,即大数据具有海量性、多样性、高速性三个特征。其中,海量性是指数据规模巨大,达到TB级及PB级;多样性是指数据种类繁多,按照其结构分大致分为结构化数据和非结构化数据;高速性是指数据的出现速度、处理速度和分析速度都在持续加快
3 云计算环境下大数据分布规律的结构优化设计
目前,研究云计算环境下大数据分布规律的结构优化设计方法有很多,主要包括模糊聚类方法、详细度量方法和最小二乘法等。其中,模糊聚类法是指通过研究数据分布规律本身属性,从而构建迷糊矩阵来确定聚类关系的一种方法;最小二乘法是指通过匹配最小化误差的平方和寻找数据的最佳函数,使得所求数据与实际数据之间误差平方和最小化的一种方法
3.1 构建X上的模糊关系
构建待处理数据X上的模糊关系,是采用模糊聚类法的第一步,是大数据分布规律的结构优化设计的基础。在这一过程中,需将属性类似的系数构建成n阶的迷糊矩阵,即相似系数矩阵。根据矩阵确定其在待处理数据X上的模糊关系。其中两个模糊向量间的接近程度称之为贴近度,而相似系数的计算和描述则需利用贴近度法,例如将X中的元素Xi和Xj看作是其各自特征的模糊向量,用贴近度对相似系数rij进行计算,则rij的表达式为:
rij=1-c(dp(Xi,Xj))α (1)
(1)式中:c,α指的是描述常数;p指的是描述不同距离的代码系数,对论域X={x1,x2,…,x5}进行规格化处理,此时,取c值为0.1,计算相似系数,可获取模糊相似矩阵,如式(2):
(2)
结合式(1)、式(2),在获得模糊五阶相似矩阵后,需对其进行划分,才能进行下一步的大数据分布规律结构优化设计
3.2 大数据分布规律结构优化设计
在进行大数据分布规律结构优化设计前,针对类和类间的距离,需运用最短距离法进行计算,例如用dij(i,j=1,2,…,n)描述样本i与j之间的距离,则有:
(3)
若用G1,G2,…来描述类,则第k类的Gk和第r类的Gr之间的最短距离为:
Dkr=min{dij:i∈Gk,j∈Gr} (4)
利用最短距离法对云计算环境下大数据分布规律结构进行优化设计,可有效分析辨别出需要调整和转移的数据,使得云计算环境下的大数据分布在一个不断调整的动态过程里,随时保持数据的最理想状态
3.3 仿真实验
为了验证上述优化设计的有效性,现通过仿真实验,对模糊聚类方法、最小二乘法进行对比分析:两种方法分别进行10次实验,取其平均访问代价作为结果。在对两种方法进行评价的过程中,将相对访问成本作为衡量的标准。得出结果如下:
(1)随着代理存储容量的增加,比较采模糊聚类方法和最小二乘法进行大数
文档评论(0)