《大数据分析与应用》教学课件 第三章 大数据分析工具.pptxVIP

《大数据分析与应用》教学课件 第三章 大数据分析工具.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
;第1章 大数据与数据分析;;;【案例1】 Suncorp-Metway使用数据分析实现智慧营销 Suncorp-Metway是澳大利亚一家提供普通保险、银行业、寿险和理财服务的多元化金融服务集团,旗下拥有5个业务部门,管理着14类商品,由公司及共享服务部门提供支持,其在澳大利亚和新西兰的运营业务与900多万名客户有合作关系。 该公司过去十年间的合并与收购,使客户群增长了200%,这极大增加了客户群数据管理的复杂性,如果解决不好,必将对公司利润产生负面影响。为此,IBM公司为其提供了一套解决方案,组件包括:IBM Cognos 8 BI、IBM Initiate Master Data Service与IBM Unica。;采用该方案后,Suncorp-Metway公司至少在以下三项业务方面取得显著成效: (1)显著增加了市场份额,但没有增加营销开支; (2)每年大约能够节省1 000万美元的集成与相关成本; (3)避免向同一户家庭重复邮寄相同信函并且消除冗余系统,从而同时降低直接邮寄与运营成本。 由此可见,Suncorp-Metway公司通过该方案将此前多个孤立来源的数据集成起来,实现智慧营销,对控制成本、增加利润起到非常积极的作用。;;;;数据分析有着极其广泛的应用范围。典型的数据分析可能包含以下3步: (1)探索性数据分析。当数据刚取得时,可能杂乱无章,看不出规律,通过作图、制表、用各种形式的方程拟合、计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。 (2)模型选定分析。在探索性数据分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选出一定的模型。 (3)推断分析。通常使用数理统计方法对所定模型或估计的可靠程度和精确程度做出推断。 数据分析过程的主要活动由识别信息需求、收集数据、分析数据、评价并改进数据分析的有效性组成。;识别信息需求;收集数据;分析数据;过程改进;3.1.3 数据分析框架的主要事件 ;估计(Estimation);预测(Prediction);数据分组(Affinity Grouping);聚类(Clustering);描述(Description);复杂数据挖掘;;数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要包括数据准备、规律寻找和规律表示3???步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。 数据挖掘的任务主要包括关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的有哪些信誉好的足球投注网站引擎查找特定的Web页面,则是信息检索(Information Retrieval)领域的任务。虽然这些任务是重要的,可能涉及复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。;数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。 数据挖掘利用了来自如下一些领域的思想:① 统计学的抽样、估计和假设检验;② 人工智能、模式识别和机器学习的有哪些信誉好的足球投注网站算法、建模技术和学习理论。此外,数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。;3.2.2 数据挖掘的任务;;;数据挖掘技术产生的基本条件分别是:海量数据的产生与管理技术、高性能的计算机系统、数据挖掘算法。激发数据挖掘技术研究与应用的4个主要技术因素如下:;数据挖掘从1989年第十一届国际联合人工智能学术会议上正式提出以来,学术界就没有中断过对它的研究。数据挖掘在学术界和工业界的影响越来越大。数据挖掘技术被认为是一个新兴的、非常重要的、具有广阔应用前景和富有挑战性的研究领域,并引起了众多学科研究者的广泛注意。经过数十年的努力,数据挖掘技术的研究已经取得了丰硕的成果。;数据挖掘作为一种“发现驱动型”的知识发现技术,被定义为找出数据中的模式的过程。这个过程必须是自动的或半自动的。数据的总量总是相当可观

文档评论(0)

实用电子文档 + 关注
实名认证
文档贡献者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证 该用户于2023年04月18日上传了教师资格证

1亿VIP精品文档

相关文档