大数据的前世今生:大数据特征与发展历程.pdfVIP

大数据的前世今生:大数据特征与发展历程.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据的前世今生:大数据特征与发展历程

—·《中国大数据技术/应用/售前 交流圈 QQ 群:322914180》·— 大数据的前世今生:大数据特征与发展历程 大数据(big data)是这样的数据集合:数据量增长速度极快,用常规的 数据工具无法在一定的时间内进行采集、处理、存储和计算的数据集合。 大数据具有以下五大特征(4V+1O)的数据才称之为大数据,即: 数据量大(Volume)。第一个特征是数据量大,包括采集、存储和计算的 量都非常大。大数据的起始计量单位至少是P (1000 个T)、E (100 万个T) 或Z (10 亿个T)。 类型繁多(Variety)。第二个特征是种类和来源多样化。包括结构化、半 结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置 信息等等,多类型的数据对数据的处理能力提出了更高的要求。 价值密度低(Value)。第三个特征是数据价值密度相对较低,或者说是浪 里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不 在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来 挖掘数据价值,是大数据时代最需要解决的问题。 速度快时效高(Velocity)。第四个特征数据增长速度快,处理速度也 快,时效性要求高。比如有哪些信誉好的足球投注网站引擎要求几分钟前的新闻能够被用户查询到,个 性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显 著特征。 —·《中国大数据技术/应用/售前 交流圈 QQ 群:322914180》·— 数据是在线的(Online)。数据是永远在线的,是随时能调用和计算的, 这是大数据区别于传统数据最大的特征。现在我们所谈到的大数据不仅仅是 大,更重要的是数据变的在线了,这是互联网高速发展背景下的特点。比如, 对于打车工具,客户的数据和出租司机数据都是实时在线的,这样的数据才有 意义。如果是放在磁盘中而且是离线的,这些数据远远不如在线的商业价值 大。 关于大数据特征方面,特别要强调的一点是数据是在线的,因为很多人认 为数据量大就是大数据,往往忽略了大数据的在线特性。数据只有在线,即数 据在与产品用户或者客户产生连接的时候才有意义。如某用户在使用某互联网 应用时,其行为及时的传给数据使用方,数据使用方通过某种有效加工后(通 过数据分析或者数据挖掘进行加工),进行该应用的推送内容的优化,把用户 最想看到的内容推送给用户,也提升了用户的使用体验。 大数据发展过程的重大事件 2005 年Hadoop 项目诞生。Hadoop 其最初只是雅虎公司用来解决网页有哪些信誉好的足球投注网站 问题的一个项目,后来因其技术的高效性,被Apache Software Foundation 公 司引入并成为开源应用。Hadoop 本身不是一个产品,而是由多个软件产品组成 的一个生态系统,这些软件产品共同实现全面功能和灵活的大数据分析。从技 术上看,Hadoop 由两项关键服务构成:采用Hadoop 分布式文件系统(HDFS) 的可靠数据存储服务,以及利用一种叫做MapReduce 技术的高性能并行数据处 理服务。这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、 可靠分析变为现实的基础。 2008 年末, “大数据”得到部分美国知名计算机科学研究人员的认可,业 界组织计算社区联盟 (Computing Community Consortium),发表了一份有影响 力的白皮书《大数据计算:在商务、科学和社会领域创建革命性突破》。它使 —·《中国大数据技术/应用/售前 交流圈 QQ 群:322914180》·— 人们的思维不仅局限于数据处理的机器,并提出:大数据真正重要的是新用途 和新见解,而非数据本身。此组织可以说是最早提出大数据概念的机构。 2009 年印度政府建立了用于身份识别管理的生物识别数据库,联合国全球 脉冲项目已研究了对如何利用手机和社交网站的数据源来分析预测从螺旋价格 到疾病爆发之类的问题。 2009 年中,美国政府通过启动Data.gov 网站的方式进一步开放了数据的 大门,这个网站向公众提供各种各样的政府数据。该网站的超过4.45 万量数据 集被用于保证一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定 区域内失业率的信息,这一行动激发了从肯尼亚到英国范围内的政府们相继推 出类似举措。 2009 年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关 系致力于改善在互联网上获取科学数据的简易性。 2010 年2

您可能关注的文档

文档评论(0)

hhuiws1482 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档