管理信息系统第五版黄梯云第17章-数据挖掘技术概论.pptxVIP

管理信息系统第五版黄梯云第17章-数据挖掘技术概论.pptx

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
管理信息系统第五版黄梯云第17章-数据挖掘技术概论

第十七章 数据挖掘技术概论 本 章 内 容 第一节 数据挖掘的概念 第二节 数据挖掘的功能及主要应用 第三节 数据挖掘的过程 第四节 数据挖掘的常用方法 第五节 数据挖掘技术的发展趋势 2018-5-10 第十七章 数据挖掘技术概论 2 大数据时代 大数据(4V理论): 2018-5-10 第十七章 数据挖掘技术概论 3 关于大数据 信息技术进步的自然产物:数据挖掘 信息爆炸 数据过剩 数据多,信息或知识少 2018-5-10 第十七章 数据挖掘技术概论 4 1.1数据挖掘的概念 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 数据挖掘的含义 数据源必须是真实的、大量的、多数是含有噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、易理解、可运用; 所有发现的知识都是相对的,是有特定前提和约束条件、面向特定领域的; 2018-5-10 第十七章 数据挖掘技术概论 5 本 章 内 容 第一节 数据挖掘的概念 第二节 数据挖掘的功能及主要应用 第三节 数据挖掘的过程 第四节 数据挖掘的常用方法 第五节 数据挖掘技术的发展趋势 2018-5-10 第十七章 数据挖掘技术概论 6 2.1数据挖掘的功能 数据特征化目的是对数据进行更高层次的抽象,给出它的总体综合描述 1.数据特征化 简单关联、时序关联 2.关联分析 分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些类 3.分类与预测 按照某种相似程度度量方法(通常是测算距离),将数据分成一系列有意义的簇 4.聚类分析 对离群点数据的分析处理 5.离群点分析 对那些随时间变化的数据对象的变化规律和趋势进行建模描述 6.演化分析 2018-5-10 第十七章 数据挖掘技术概论 7 2.2 数据挖掘的应用领域 2018-5-10 第十七章 数据挖掘技术概论 8 本 章 内 容 第一节 数据挖掘的概念 第二节 数据挖掘的功能及主要应用 第三节 数据挖掘的过程 第四节 数据挖掘的常用方法 第五节 数据挖掘技术的发展趋势 2018-5-10 第十七章 数据挖掘技术概论 9 3.1数据挖掘的过程 2018-5-10 第十七章 数据挖掘技术概论 10 本 章 内 容 第一节 数据挖掘的概念 第二节 数据挖掘的功能及主要应用 第三节 数据挖掘的过程 第四节 数据挖掘的常用方法 第五节 数据挖掘技术的发展趋势 2018-5-10 第十七章 数据挖掘技术概论 11 4.1 数据挖掘的常用方法 从大的方面来讲,机器学习和数理统计等是数据挖掘主要依据的方法。 统计方法应用于数据挖掘主要是进行数据评估; 机器学习作为人工智能的一个重要分支,它通过学习训练数据集,发现模型的参数,并找出数据中隐含的规则。 1.联机分析处理(Online Analytical Processing,OLAP) OLAP是由数据仓库提供一种重要的数据分析工具,主要通过多维的方式来对各种粒度数据进行分析、查询和报表。 主要的操作包括:上卷、下钻、切片、切块、旋转以及统计操作等。 2.关联挖掘 关联挖掘即是在大量的数据中找出能够反映数据项之间关系的知识来。 最常应用的领域是购物篮分析 关联规则的形式如:面包=牛奶 [支持度=70%,置信度=65%]。 关联规则的挖掘分为两步:(1)找出所有的频繁项集(2)由频繁项集中,再比较置信度,找出关联规则来。 2018-5-10 第十七章 数据挖掘技术概论 12 4.1 数据挖掘的常用方法 3.决策树(Decision Tree) 决策树是一种建立在信息论基础之上的树型结构分类模型,是常用的数据进行分类的方法之一。 实现了数据分类规则的可视化,其输出结果也容易理解。 决策树方法很适合于处理非数值型数据,精确度比较高,分类结果容易理解,效率也比较高。 4.神经网络(Neural Network) 神经网络方法是通过模拟生理神经网络结构的非线性预测模型。 神经网络由一系列类似于人脑神经元一样的处理单元组成,称之为神经元节点(Nerodes),这些节点通过网络彼此互连,每个单元之间的每个连接都关联一个权重。 在网络学习阶段,网络通过调整权重实现输入样本与输出类别之间的对应。它比较擅长处理参数较多的复杂问题。例如:可以指定输入层为代表过去的销售情况、价格及季节等因素,输出层便可输出判断本季度的销售情况。 2018-5-10 第十七章 数据挖掘技术概论 13 4.1 数据挖掘的常用方法 5. 均值(K-means)算法 K-均值算法是一种基本的、基于划分的聚类算法。 首先从n个数据对象中任意选择k个对象作为初始聚类中心;对于剩余的数

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档