- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第 1 章 大象也会跳舞
第1 章 大象也会跳舞
大象能跳舞吗?当我们被庞大而臃肿的数据压垮,常常会不停的问自己,是否真的有必
要收集那么多的数据。对于这个问题,作者的回答是,“一切都取决于你自己”。对于庞大的
数据来说,其在不同人的眼中,即可以是一座无用的垃圾山,也可以是一座未经开凿的金山,
这一切都是取决于使用者的能力与眼界。
1.1 大数据时代
什么是“大数据”?一组名为“互联网上一天”的告诉我们。一天之中,互联网产生的全
部内容可以刻满 1.68 亿张DVD ,发出的邮件有 2940 亿封之多(相当于美国两年的纸质信
件数量),发出的社区帖子达200 万个(相当于《时代》杂志770 年的文字量),卖出的手机
为37.8 万台,高于全球每天出生的婴儿数量37.1 万名。
随着信息爆炸性的增长,“大数据”因此成为当前时代最为流行的一个新的词汇,其不
仅作为 IT 行业一个通用词汇使用在日常工作中,并且广泛渗透到商业、金融、教育等一系
列跟数据相关的领域中。并且随着大数据的普及和对其的分析和挖掘处理能力的加深,越来
与被人们所重视。围绕大数据获得的商业价值的利用逐渐成为行业人士争相追捧的利润焦
点。
正如人们常说的一句话,“冰山只露出他的一角”。大数据也是如此,“人们看到的只是
其露出水面的那一部分,而更多的则是隐藏在水面下”。
我们知道,简单的掌握海量的数据资料是不够的。大数据时代的强者并不是看服务器中
存放有多少数据,而是那些真正懂得如何让庞大的数据实现真正的实用化和获取其中包含的
庞大的数据信息的人,是那些懂得如何对这些数据信息进行有意义针对性处理的人。换句话
说,就是如何使用手中的工具来对数据进行二次加工和获取,通过这种深加工从而实现数据
的增值与增产。实现大数据为我所用。
1.2 大数据分析时代
如果我们把大数据比作一块未经开发的沃土,那么只有经过耕耘收获的果实才能够算得
上是真正获得了沃土的回报。换言之,如果把大数据比作一种一块沃土,那么只有强化对土
地的“耕耘”能力,才能通过“加工”实现数据的“增值”。
随着“大数据时代”的开启,对于大数据本身的处理和分析越来越为生产者和商业者所
看重。但是问题在于,大数据分析相比于拥有较长历史的数据库分析和传统分析行业来看,
具有待数据量特别巨大,算法分析特别复杂等特点。
一般来说,大数据分析需要涉及以下四个方面:
有效的数据质量。任何数据分析的基础来自于真实的数据基础,而一个真实数据的
来源是采用标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质
量的分析结果。
优秀的分析引擎。对于大数据来说,数据的来源多种多样,特别是非结构化的数据
来源多样性带来了大数据分析的新的挑战,因此我们需要一系列的工具去解析,提
取,分析数据。大数据分析引擎就是用以设计去从数据中提取我们所需要的信息。
合适的分析算法。采用合适的大数据分析算法让我们深入数据内部,挖掘价值。在
算法的具体选择上,不仅仅要求能够处理的大数据的量的多少,还涉及到对于大数
据处理的速度。
对于未来的合理预测。数据分析的目的是对已有数据的总结,并且根据现象与其他
情况紧密连接在一起从而获得对未来的预测。大数据分析也是如此。不同时的是大
数据分析中,数据来源的基础更为广泛,涉及需要处理的方面更多。
由这些方面可以知道,大数据分析是数据分析的最前言技术。这种新的数据分析是目标
导向的,不用关心数据的来源和具体格式,能够根据我们需求去处理各种结构化、非结构化
和半结构化数据。配合使用合适的分析引擎,能够输出有效结果,提供一定的对未来趋势的
预测分析服务,能够面向更广泛的普通员工快速部署分析应用。
长期以来,对于数据的统计分析使用的还是一般传统的关系型数据库分析技术。不得不
说,从关系型数据库的诞生到今天,经历了50 年的发展,已经成为一门成熟的,现在仍旧
具有一定活力的数据分析管理技术。
但是由于关系型数据库天生的缺陷,其丧失了在互联网大数据时代的机会。究其原因主
要是其传统的关系型数据管理模型的扩展无法对如今的大数据进行很好的融合与接纳,不能
胜任大数据的要求。对于关系型数据库来说,其追求的是高度一致性和数据正确性。而这恰
恰制约了其扩展能力,无法进行任意的
文档评论(0)