- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据(BigData)之我见.pdf
下午,拜读了一位大哥推荐的一篇说大数据的文章,把大数据说的太神了,有点过了,
就像二十多年前大家渴望MRPII 能包治企业百病一样。二十多前,我刚刚接触MRPII 时,比
现在把大数据吹得过了头的那些人还要激动,那时候我激动的都想要在公交车上做
Presentation 了。
每当新技术的出现,人们都会对它有一些期待、甚至是相当的期待,就像前几年的RFID
和云计算,人们对这些玩儿不切合实际的期待太多了,说到RFID ,我还模糊的记得从前全国
迅速推广条形码时,人们也给条形码定义了很多美好的期待,例如再也没有假货了,现在看
看,假货是少了还是更多了呢,RFID 也是一样,它能在一定程度帮助人们实现一些愿望和想
法,既可以帮助好人,也可以帮助坏人,所以,技术就是技术,关键还是人。
再说回大数据,我理解大数据至少有两个维度,一是某一范畴内的样本数据足够多、多
到海量数据的级别,就是大数据了;第二个维度是就一个具体的样本而言,数据足够的详细、
足够的全面,前者是宏观层面的大数据;后者是微观层面的大数据。例如,用核磁给一个个
体做脑部CT ,上学时我们学过X 射线CT 的数学方法,最后就是解一个巨大的线性方程组,
差不多也算是大数据了吧,一个个体的脑CT 数据足够多、足够细,就能做成切面和旋转,
就能帮助医生诊断更加细小的异常或者病变,这就是第二个维度大数据应用;如果把几百人
甚至上万人的脑CT 集中起来研究,就能让医生和科学家发现更多的规律,这就是第一个维
度的大数据应用,不同的维度的大数据,用在不同的侧面、或者领域,你要给客户做大数据
的应用规划和设计时,一定要把这些最基本的东西搞清楚,千万不要张冠李戴了。
另外,从大数据的结构上,也可分为结构化数据和非结构化两类,实际的应用中,无论
是宏观层面的大数据,还是微观层面的大数据,都会含有结构化和非结构化两种数据类型,
结构化数据分析起来,无论是简单的汇总报表还是高级的数据挖掘和智能分析,技术都已经
很成熟,肯定算不上新技术了。
1
结构化大数据里面稍微比较有意思的是在两个方面,一个是大数据的获取方式;一个是
大数据的存储技术,前者最牛逼的就是Baidu 有哪些信誉好的足球投注网站了,每天成千上万的人在用百度,不知不
觉的为百度在默默贡献着你的喜怒哀乐、你的工作和生活方式、你的交际信息等等,这些信
息和数据,汇聚百川而成江河,最终为百度形成巨额的宝贵财富。
后者比较牛逼的是HP 的Vertica 数据库了,这么好的列存储的海量准实时结构化的数据
库,可惜的是HP 做不好这个市场,几乎要烂在手里了。搞得HP 软件部的Sales 一提起
Vertica 就激动、激动的流下伤心的眼泪,简直是要冤死了。IBM 的人要是看了这一段,弄不
好激动的要疯了,因为IBM 也有个类似的玩儿,尽管技术上比HP 差一些,但是IBM 的人能
忽悠,没准比HP 卖的要好。
其实,我个人理解,大数据里面真正比较难的是两点:一是非结构化数据的存储;二是
非结构化数据的建模和分析,尤其是与结构化数据联合在一起的建模和分析;当然,把非结
构化数据做量化处理或者转换,把它们转变成结构化数据也是一个近似处理的方法,如果你
能把量化的阶梯分的足够细,就像微分学一样,那也就基本接近客观事物了。
HP 在非结构化数据方面,也有不错的产品,就是那个在英国收购的、被原股东大大的黑
了一把的那个东西,叫什么:Autonomy ,奶奶的,我可不是给HP 做广告,因为这些东西真
的不错。
大数据虽好,关键还要看用它的人怎么样?想怎么用?目标是什么?方法论是什么?实
现的过程以及风险应对,你会说,这有什么风险?我告诉你,这其中的风险可大了去了,如
果你的大数据大而不完备、不充分,冗余的数据太多、如果你的建模距离真实世界、客观事
物与规律就会太远,甚至远到完全脱离客观实际、变成纸上谈兵,那么我保证大数据系统run
出来供你们决策的东西,很可能就是垃圾,想想看,你们依据垃圾做出的商业决策,会导致
什么结果呢...呵、呵呵呵。
我毕业之初的八十年代,那时候我们地质系统就用了一些专家系统,记得那时候叫什么
Landmark 工作站,把野外勘探的地震数据处理后弄进去,专家系统就会描绘出由地震反射信
号模拟而成的地层构造,甚至会标出有前景的油气构造,现在看,那时候的地震数据应该算
2
是现在所谓的大数据了,一个工区下来,数据多到装满几十盘甚至几百
文档评论(0)