- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
如何评价《Big Data:大数据时代》这本书?如何评价《Big Data:大数据时代》这本书?
如何评价《Big Data:大数据时代》这本书? AndyHsu, 花了三天的零碎时间大致看完了舍恩伯格的《大数据时代:生活、工作、思维的大变革》。我看推荐说这是“迄今为止最好的一本大数据专著”。目前公司在搞Hadoop、大数据应用,外面各类零碎的资料也非常多,那么想我应该去看一下这“最好”的专著吧。 买回来看完的感觉是平平而已。个人看法,在五分制下,大概也就是最多打三分。这本书可以买来看看,写得比较完整全面,案例比较多,有一定的参考意义,写PPT吹牛用得上,但是有什么巨大的意义就谈不上了。很多观点不能同意。 一、主要观点上可以探讨的地方 作者提出了关于大数据的“掷地有声”的三个原则。这三个原则凡讲大数据必被提及,很多人奉为圭臬。但是我觉得每一点都值得探讨。这三点分别是:不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。 看完之后感觉都有点不是那么回事。 1.不是随机样本,而是全体数据 这个说得好像人类从来就不知道使用全体数据可以得到更全面的结论,而非要去煞费苦心发展出一套抽样技术一样。人类早就知道处理全量数据的好处,而之所以要进行抽样分析,原因不外乎两点:一是处理能力跟不上,二是数据收集能力跟不上。作者认为人类之前主要受限于数据的处理能力而不去处理全量数据,但在目前机器处理能力有了巨大的提升的时代,限制绝大多数应用的瓶颈不是计算能力而是数据采集能力(不要去提那些极少数需要超级计算机的场合,那个和多数人无关、和本书的商业主题也无关)。但是即便如此,抽样所要针对的很多应用场景是不太可能收集全量数据的情况。比如人口普查,无论计算机力量如何强大,当前很多数据还是要人工去收集,所以这个普查还是要用抽样的方式。有意思的是,作者用人口普查是抽样分析来说明非“全量”时代我们被迫采用了抽样,而最终也没法说我们是否已经可以用全量数据来做人口普查了。实际上至少在目前,对于人口普查,抽样还是必然的选择(嗯,你可以设想,以后人人都装一块芯片,你可以在你的PPT里讲给你的客户和老板听)。再比如我们统计里的经典问题:怎么估算一批零件的使用寿命?怎么去分析一批奶品里的三聚氰胺?以前我们不可能去做全量测试,因为这意味着这批零件就废了,这批奶也全部用于测试了,这样测出结果也没啥意义了(嗯,你也可以说:我我们去收集历史上所有此类零件的使用情况来进行分析吧.....嗯,加油吧,雄心勃勃的骚年)。现在 ?我们还是必须依赖抽样,是必须。 即便不提这些例子,仅从逻辑而言:收集、处理数据的行为本身也在不断产生着新的数据。我们又怎么证明这些数据不是你需要的“全量”的一部分呢? 作者的行文中,关于什么是“全量”,处于不断的摇摆之中。有时指“我们需要的所有数据”,有时指“我们能收集到的所有数据”。作者举了人口普查的例子,这个全量显然指前者。而在很多商业案例中,又显然指后者。我们有能力处理越来越多的、在以前不敢想象的大量数据,但是至少目前看,我们还没可能说我们处理了“全量”。我们最多可以说我们能处理我们能搜集到的“全量”,但如果据此产生了我们已经没有遗漏数据了的感觉,认为所有数据尽在掌握了,那我认为是一种很可能导致错误的错觉。 2.不是精确性,而是混杂性 这个么,说得好像以前的人类在使用“抽样”数据时竟然都认为取到的数据是“精确”的一样。在使用抽样数据的时候,我们就知道要容忍一定的误差。我们甚至知道在就算取得了“全样”数据的时候,也可能因为有各种原因而导致的不精确,统计实践中对此有相当多的案例。人类从未奢望过我们通过数据分析取得的多数结论是精确的。我们从来都要在信息混杂的情况下做出大多数的决策。 3.不是因果关系,而是相关关系 这是很多人(包括作者)认为最有价值、最重大的发现,而实际上却也是最收到批评的一个观点。连译者周涛教授在序言里都表示看不下去了,他至于认为如果放弃对因果关系的分析,是人类的堕落。我不说这么高的哲学层面,只从逻辑和技术上讨论一下。 计算机能够提供给我们的结论(到目前为止以及在可见的未来),都是相关性。计算机从未提供过明确的因果关系给人类。是否因果关系,是人类在数据基础上,进行的人为判断。一直有相当多的应用,也是只考虑相关性,不考虑因果关系的:确定因果关系,是需要更大的精力、更多的投入的。所以只看相关性而不看因果性也不是什么新的结论(实际上已经是个很旧的结论了)。而这个相关性是不是可以作为决策的基础呢?这个一样离不开人的判断。有一个这样的故事:通过大量的数据分析,慈善组织得出结论:一个国家、地区的电视机的普及率与发达富裕程度很有关系(冰箱、洗衣机、空调、高跟鞋、牛仔裤,etc.,也会和发达程度有这样的相关性),于是他们就向贫困国家赠送了很多电视,认为此举可以促进该国的经济发展。你可以鬼扯电视的普及与经济文化的密切相关,但是实际上最终
您可能关注的文档
- 国贸第六章国贸第六章.ppt
- 国际企业管理导论随堂练习国际企业管理导论随堂练习.doc
- 国际共保(Multinational_Pooling)介绍国际共保(Multinational_Pooling)介绍.ppt
- 国际冲突法的适用国际冲突法的适用.ppt
- 国际商事仲裁裁决的承认与执行国际商事仲裁裁决的承认与执行.ppt
- 国际商务中的文化环境国际商务中的文化环境.pdf
- 国际商务离线作业国际商务离线作业.doc
- 国际商务术语国际商务术语.ppt
- 国际志愿者日主题活动策划国际志愿者日主题活动策划.doc
- 国际标准ISO8632/1:图形元文件(CGM)标准介绍国际标准ISO8632/1:图形元文件(CGM)标准介绍.pdf
- 如何购买耳机和耳塞,从10元和1万元耳机间的声音差异说起 (转自豆瓣烧耳机小组)如何购买耳机和耳塞,从10元和1万元耳机间的声音差异说起 (转自豆瓣烧耳机小组).doc
- 如何进行科技查新如何进行科技查新.ppt
- 如果让我重新读一次研究生——王泛森院士(台湾)如果让我重新读一次研究生——王泛森院士(台湾).doc
- 如种美味,自己手造才能有新鲜的满足感如种美味,自己手造才能有新鲜的满足感.pdf
- 妇产科习题5妇产科习题5.ppt
- 威廉玛丽学院介绍威廉玛丽学院介绍.pdf
- 如果你的女朋友是护士如果你的女朋友是护士.doc
- 妇产科护理之妊娠期并发症妇女的护理习题集与答案妇产科护理之妊娠期并发症妇女的护理习题集与答案.pdf
- 威斯汀豪斯VCP12断路器使用说明威斯汀豪斯VCP12断路器使用说明.pdf
- 娃娃鱼养殖技术大全娃娃鱼养殖技术大全.pdf
文档评论(0)