大数据基本特征与常见误解分析.docxVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据基本特征与常见误解分析

大数据基本特征与常见误解分析东软管理咨询 资深咨询顾问 宁泓森随着大数据时代到来,各种关于大数据关键字接踵而至,大数据行业应用,大数据思维,大数据方法,大数据架构,大数据技术等等。那么什么是大数据呢?本文我们来谈一下大数据是什么,以及针对大数据的一些常见的误解和迷惑进行解答。一、大数据的基本特性维基百科在技术层面给大数据做了一个定义。大数据指无法在一定时间内用传统数据库软件工具对内容进行抓取、管理和处理的数据集合--维基百科。大数据的4V特性:图 1大数据的4V特征数据量巨大Volume传统关系型数据库是TB级,大数据处理数据量达到PB级。数据类型多Variety大数据不仅包括结构化数据,也包括半结构化数据和非结构化数据。要求数据处理速度快Velocity大数据需要实时处理海量数据的能力。数据价值密度低、商业价值高Velocity大数据具有潜在价值,并可以数据再利用。一般必须同时满足这4个特性的数据,我们才称之为大数据,4V特性是我们判断是否是大数据的最常用方法。二、大数据的来源、类别、途径图 2大数据的来源、类型、途径1.大数据的来源与途径政府政府各类数据中心、IT系统里存在大量结构化数据,同时政府事务存在大量的文本、流媒体文件等非结构化数据。企业企业内部各种信息化系统内存在的数据,由企业设备自动产生的数据,企业业务、交易产生的数据等。个人个人身体指标、DNA、行为数据、人与人的交互数据等。这些海量的数据,可以通过可穿戴设备、物联网传感器以及各种数字化硬件设备,以及基于互联网、移动互联网的AppS、各类IT信息系统获取。2.大数据的类型按照数据结构划分包括传统数据库应用中常用的结构化数据,日志、xml文件等半结构化数据,以及数量最为众多的图片、文本、语音视频等媒体文件构成的非机构化数据。按照产生主体划分包括企业各类信息化系统和应用产生的数据、人本身产生的数据、机器自动产生的数据。按照数据作用方式划分包括日常的交易数据以及微信、微博等人与人之间沟通交流的交互数据。三、大数据的典型误解很多人在刚刚接触大数据的时候,都容易有各种误解。主要有以下几点海量数据就是大数据,大数据就是“数据大”。这种理解不全面。大数据4V特性中的数据量大只是一个相对概念并非绝对概念,更重要的指标是看数据抽取的样本是全体样本还是抽样样本,大数据更看重的是全体样本,如果数据量本身并非特别巨大,但是数据全,可以是归属到大数据的范畴。举个例子,一个老人的日常起居的行为数据,生理指标数据,如果收集足够多(几年)这样的数据,可以判断出老人的健康情况和行动规律,通过挖掘这些数据,可以给出针对老人健康的一套个性化方案,根据老人的行动规律喜好习惯,可以有大量的适宜的产品和服务推介,这都是获取的数据能够带来的价值,这个老人的全部相关数据就可以归属到大数据的范畴。大数据是大企业和政府的事,小企业用不上,这其实也是一个误解,与上面老人的例子类似,小企业如果能获得面向企业和面向业务的各类基于全体样本的数据,利用大数据的工具和方法,仍然可以获取大数据的价值。大数据比小数据更有用,大数据不能保证精确性所以没用在大部分应用场景中,小数据仍然还是最主要的数据类型。小数据分析由于样本数少,容易处理,方便进行数据的统计工作,并且容易得到相对精确的结果。而大数据不是做统计,是做分析,是找到数据之间关联性,找到发展趋势,这样的分析尽管无法保证绝对精确性,但同样有它的价值存在,这样的价值是小数据无法得到的。由此可以看出,大数据和小数据的适用场景不同,不能单一评判谁比谁更有用。其它一些概念混淆大数据究竟是思维、是技术、是管理方式还是业务形态大数据在技术上分4个层次,从下到上包括基础层、管理层、分析层、应用层。图 3大数据技术上的4个层次基础层:负责数据的存储和运算,可以存在一个大数据数据运算和存储平台。由于大数据的4V特征,要求它的处理能力强,高度自动化,并可根据需要弹性扩展;管理层:位于基础层之上,存在一个大数据管理平台,主要负责大数据的简单技术性处理,处理之后的结果利用管理平台能够进行实时的管理;分析层:数据经过管理层处理之后,即可以利用分析层的分析平台进行数据分析,但这时的分析大多还是停留在算法和机器学习阶段,仍然还是数据层面的分析,还做不到业务和应用的层次;应用层:位于最上层,利用各种大数据工具,比如可视化工具、各种非结构数据处理引擎、行为分析工具等,可以实现大数据的业务级应用,并能实时实现业务分析和预测。大数据技术的整体4个层次,跟云计算的3层模型很像,都是从基础设施服务到管理服务再到平台服务最后是应用级服务。基础层是纯技术层面,管理层涉及一些管理策略在里面,分析层涉及大数据思维,而应用层更是包括了分析与预测等业务层面的内容,这就是为什么让有些人迷惑大数据既是技术、又是思维、管理、模式的原

文档评论(0)

haihang2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档