4大数据时代-思维变革 - 3更好讲诉.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
负责这个项目的统计学家辛西亚·鲁丁(Cynthia Rudin)回忆道: 乍看这些数据的时候,我们从未想过能从这些未经处理的数据中找出想要的信息。我打印了一个关于所有电缆的表格。如果把这个表格卷起来的话,除非你在地上拖,不然你绝对提不起它来。而我们需要处理的就是这么多没有处理过的数据。只有理解了这些数据,才能从中淘金,并倾己所有创建一个好的预测模型。 * 2008年,《连线》杂志主编克里斯·安德森(Chris Anderson)就指出:“数据爆炸使得科学的研究方法都落伍了。”后来,他又在《拍字节时代》(The Petabyte Age)的封面故事中讲到,大量的数据从某种程度上意味着“理论的终结”。安德森也表示,用一系列的因果关系来验证各 种猜想的传统研究范式已经不实用了,如今它已经被无需理论指导的纯粹的相关关系研究所取代。 * 接下来看看大数据带给我们思维方式方面的变化。 首先,在以往计算机存储和处理能力较弱的情况下,我们会先对数据进行采样,然后进行处理。采样的不合理会导致预测结果的偏差,在大数据时代,依靠强大的数据处理能力,应该去处理全部的数据。 其次大数据面对的不仅是结构化的数据,而是全部数据,我们要把一切在计算机和网络中存储的信息都当做数据,而不仅仅是数据库中的才是数据。 前面提到大数据应该能够接受错误数据,从实际情况进行预测。 另外,大量案例表明,数据量大小比算法更有效,靠改进算法能够提高的有效性远不如增大数据量有效,量变会引起质变。 最后,大数据更加关注相关性,而不是因果性。相关关系和因果关系是人类思维的两种重要方式,在人类进化史上,更加注重研究因果关系,但大数据进行预测更多是依靠相关性。也就是说,很多情况下知道“是什么”即可,不必知道“为什么”。 * 1. 大数据时代的思维变革 1. 大数据时代的思维变革——更好 “更好”——不是因果关系,而是相关关系 知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。 关联物,预测的关键 “是什么”,而不是“为什么” 改变,从操作方式开始 大数据,改变人类探索世界的方法 林登与亚马逊推荐系统 1997年,林登,亚马逊,推荐书籍 1998年 “item-to-item”协同过滤技术 书评团队被解散 评论家所创造的销售业绩 计算机生成内容所产生的销售业绩 海明威作品与菲茨杰拉德的书 知道是什么就够了,没必要知道为什么 据说亚马逊销售额的三分之一都是来自于它的个性化推荐系统。 关联物,预测的关键 相关关系:相关关系的核心是量化两个数据值之间的数理关系。 强和弱 通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。 实例:沃尔玛——蛋挞与飓风 生活中的相关关系 身高与前臂的长度 小数据时代的相关关系 大数据时代的相关关系 谷歌流感预测:5亿个数学模型 建立在相关关系分析法基础上的预测是大数据的核心。 数据驱动的关于大数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。 实例 FICO提出“遵从医嘱评分” 一系列变量→是否按时吃药 益百利 预测个人收入 信用卡交易记录→预测个人收入 1$ 证明一个人的收入状况 10$ 中英人寿保险公司 申请人的健康隐患 信用报告、市场分析报告→高血压、糖尿病和抑郁症 5$ 血液尿液样本 130$ 美国折扣零售商塔吉特 怀孕预测 预测分析法 一个能发现可能的流行歌曲的算法系统 防止机器失效和建筑倒塌 异常情况与正常情况 通过找出一个关联物并监控它,我们就能预测未来。 实例:UPS与汽车维修预测 2000年,60000辆 收集和分析数据的花费比出现停产的损失小得多。 当收集、存储和分析数据的成本较高的时候,应该适当地丢弃一些数据。 医疗设备获取病人的数据 安大略理工大学 IBM 医院 卡罗琳·麦格雷戈 检测处理即时的病人信息 早产儿病情诊断 16个数据点 1260/秒 在明显感染症状出现的24小时之前,可发现 早产儿的稳定是病情感染前的准备.. 是什么,而不是为什么 在小数据时代,相关关系分析和因果分析都不容易,都耗费巨大,都要从建立假设开始。 非线性关系 小数据时代,计算机能力的不足限制了非线性关系的研究 实例:幸福的非线性关系 因果关系是否存在 不费力的快速思维 费力的慢性思维 实例:感冒、狂犬疫苗 我们的直接愿望就是了解因果关系。即使无因果联系存在,我们也还是会假定其存在。 研究证明,这只是我们的认知方式,与每个人的文化背景、生长环境以及教育水平是无关的。当我们看到两件事情接连发生的时候,我们会习惯性地从因果关系

文档评论(0)

4477704 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档