大数据环境下的数据存储与查询的研究.docxVIP

大数据环境下的数据存储与查询的研究.docx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据基础上的数据查询背景和意义随着科技的高速发展,人类正在以前所未有的速度产生着大量的各种类型的数据。尤其是伴随着云计算产业的落地,大数据也吸引了全社会的关注,成为了为一个人们所熟知的概念。上到国家政府机关、科研机构、科技企业,下到足球解说员、小报记者,都在谈论着大数据。这说明大数据不仅是一个数据科学界的难题,也是全人类的难题,各行各业都在深刻地体会着大数据所带来的机遇与挑战。到底什么是大数据呢?通常,人们用四个V描述它。第一个V是Volume,也就是量大。一组名为“互联网上的一天”的研究数据告诉我们,一天之中,全球互联网产生的所有数据可以刻满1.68亿张DVD;发出的电子邮件多达2940亿封(相当于美国在两年内发出的纸质信件数的总和);社交社区发出的帖子由200万个(相当于《时代》周刊发行770年的文字量)……截至2012年,人类产生的数据量已经从TB级别跃升至PB级别(1PB=1024TB)、EB(1EB=1024PB)甚至(1ZB=1024EB)级别。根据国际数据公司(IDC)的研究表明,2008年全球产生的数据量为0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。第二个V是Variety,也就是种类繁多。除了传统的关系型数据,还有大量的非关系型数据被大量的产生。要在这个海量的、种类繁多的数据中发现数据间的关系,挖掘出知识,是一个相当困难的事情。在这个从互联网向物联网迈进的时代,各种各样的计算设备通过网络连接在了一起构成了一个整体。人们的电脑、手机,不再只是获取信息的工具,还进一步成了信息的创造者与传播者。这一阶段产生的不仅有简单的文本数据,还有大量的传感器数据、视频、音频、日志、点击流和其他任何可以被纪录的数据。如何从这些大量的非关系型的数据中提取出有用的信息,是个很难的问题。第三个V是Velocity,也就是产生速度非常快,主要表现位数据流和移动性,哈尔滨工业大学工学硕士学位论文2还有处理速度要快,实时性要高。大量新部署的传感器都在时刻地产生新的数据,如何快速的传输、记录这些数据,并快速地对大量的移动的快速的数据请求做出响应,也考验着当前的各种数据系统。根据IDC的名为“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。第四个V是Value,也就是价值密度低。大数据的数据规模非常大,但实际可能有用的数据并不多,包含的价值密度非常低。如何在大规模的数据中找出有价值的数据,亦即“提纯”,成为了大数据分析的关键问题。大数据问题的研究主要分为四个方面:数据获取、数据传输、数据存储与数据分析。数据获取主要是依靠传感器网络与互联网,数据传输主要是依靠网络通信。本文主要在与计算机学科紧密相关的数据存储与数据分析方面做研究。数据存储与数据分析是有一定的相关性的,某种特定的存储方法会加快一些数据分析的速度。只有设计好数据存储方式,才可以在其上研究新的数据分析方法,尤其是对分布式并行环境下,数据的存储与分布方式对整个集群的性能影响是非常巨大的。当前所有的大数据工具都是基于分布式环境的,因为单一节点存储和分析数据已经变得很不现实,只有依靠几百台甚至上千台的大规模集群才能存储下所需要的数据并有计算能力来给出分析结果。在分布式环境下的数据存储模式人们做了很多探索,本文也是其中之一,试图找出一种有效的存储方案来让大量数据得以被存储并有效利用。1.1大数据的特点分祈"大数据"指的是无法使用传统的流程或者工具进行处理分析的信息资产。大数据的数据量巨大、数据种类繁多W,具有W下四个特征1.数据体量巨大。随着信息技术W及互联网技术的快速发展,数据"爆炸"式的增长,从TB级到PB级。2.数据类型繁多。大数据中既有结构化数据也有半结构化、非结构化数据。存储这些数据既需要关系型数据也需要非关系型数据库。3.数据真实性离。通过对大数据的分析,能够得到真实的有价值的信息。例如电子商务网站通过对用户浏览记录的分析,可W向用户推荐合适的商品。4.处理速度快。很多情况下都大数据的处理速度要求很高,需要达到实时的程度。大数据处理方面有一个著名的"1秒定律",超出这个时间再给出结果就没有意义了。例如电子商务网站需要在用户进入页面时就立即给出需要推荐给用户的商品,超出这个时间用户可能就浏览下一个页面了。因

文档评论(0)

dashewan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档