数据挖掘文献综述课件.ppt

下载文档 降价啦

13
0
约6.58千字
约 37页
2017-08-19 发布于河南
举报
版权申诉
保障服务

数据挖掘文献综述课件.ppt

1、本文档共37页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘文献综述课件

数据挖掘文献综述;第一章现状研究第二章数据挖掘的一般算法第三章数据挖掘的将来走向;第一章现状研究;2.数据挖掘的阶段数据挖掘过程包括很多处理阶段，其一般流程主要包括三个阶段：数据准备、数据挖掘、结果解释和评价，其中数据准备阶段包含数据选择和数据的预处理两个步骤。如下图：;3.数据挖掘的划分 ①按数据挖掘的对象分类，包括关系数据库、数据仓库、事务数据库、对象-关系数据库、序列数据库、时间数据库、多媒体数据库、数据流和Web数据。不同类型的数据储存库，数据挖掘的方法也有不同。 ②根据挖掘的任务分类有：关联规则、分类和预测、聚类、孤立点分析等。 ③根据应用的领域分类：数据挖掘的应用领域非常广泛，如金融、电信、DNA分析、股票市场、网络数据分析等。 ;4.数据挖掘的研究历程 KDD一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上，20世纪90年代数据挖掘有了突飞猛进的发展。 1991年，韩家炜等提出了面向属性的归纳方法，这是一种有效的、完整的知识发现算法； Agrawal,Imielinski和Swami在1993年在对市场购物篮进行分析时首次提出关联规则，它被认为是最常见、最广泛的数据挖掘应用； ;李德仁院士在1994年于加拿大渥太华举行的GIS 国际学术会议上首次提出了从GIS数据库中发现知识— KDG(Knowledge Discovery from GIS)的概念,并系统分析了空间知识发现的特点和方法。 Faloutsos等在1995年给出了多媒体数据挖掘的一种快速算法FastMap，用于对多媒体数据集的索引、数据挖掘和可视化。 Feldman和Hirsh于1998年研究了挖掘文本数据库中关联规则的方法。 Web挖掘在90年代有了大量的研究成果，1998年Florescu，Levy和Mendelzon给出来了Web数据刻苦研究的全面综述。;5.数据挖掘的学术会议 1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议。 1998年，一个关于数据挖掘的新的学术组织ACM–SIG-KDD建立，它组织了一些国际或地区性数据挖掘会议 ,如“数据仓库与知识发现国际会议”“知识发现与数据挖掘太平洋亚洲会议”和“数据库中知识发现原理与实践欧洲会议”。 ;6.国内的数据挖掘研究 1993年国家自然科学基金首次支持对该领域的研究项目。北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究。北京大学也在开展对数据立方体代数的研究。华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造。南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。 ;7.数据挖掘目前的应用领域市场分析和预测。如广播公司进行的收视率调查、大型超市销售分析与预测、销售渠道与价格分析等；工业生产。主要用于发现最佳生产过程；金融。采用统计回归式神经网络构造预测模型，如自动投资系统、可预测最佳投资时机；科学研究。对天文定理的发现、分析地壳的构造活动等； web数据挖掘。站点访问模式分析、网页内容自动分类聚类等；工程诊断。用于工程事故诊断。 ; 随着数据挖掘研究的不断深入，数据挖掘应用领域的规模正在逐步扩大，其中较为显著的依次为银行业、娱乐音乐，科学和卫生保健。国内应用数据挖掘的企业以通信企（移动、联通、电信）为首，应用的深度和广度都处于领先地位。除了通信业，国内的银行证券业、国家税务系统、各大商务网站也逐渐开始使用数据挖掘技术。由于客户信息不太完整，国内零售业对数据挖掘应用的不是很广泛。 ;8.数据挖掘的应用软件 SAS Enterprise Miner：这个工具为用户提供了用于建模的一个图形化流处理环境，并且它有一组常用的数据挖掘算法，包括决策树、神经网络、回归、关联等，还支持文本挖掘。 SPSS Clementine ：Clementine 是首次引入数据挖掘流概念的产品之一。它允许用户在同一个工作流环境中清理数据、转换数据和构建模型。 IBM Intelligent Miner：不仅可以寻找包含于传统文件、数据库、数据仓库和数据中心中的隐含信息，更允许企业从文本信息中获取有价值的客户信息。 Intelligent Miner：使用预测模型标记语言来导出挖掘模型，这种语言由数据挖掘协会定义。 ;国内也有不少新兴的数据挖掘软件： DMiner ：由上海复旦德门软件公司开发的具有自主知识产权的数据挖掘平台。 IDMiner ：由海尔青大公司开发的具有自主知识产权的数据挖掘系统。 MSMiner ：