第一章 引言 - 中国中医科学院中医药信息研究所.ppt

第一章 引言 - 中国中医科学院中医药信息研究所.ppt

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第一章 引言 - 中国中医科学院中医药信息研究所.ppt

数据挖掘入门;引言 KDD与数据挖掘 数据挖掘方法 数据挖掘的应用和发展趋势 数据预处理 可视化数据挖掘;一、引言;为什么数据挖掘是重要的 数据的丰富带来了对强有力的数据分析工具的需求。快速增长的海量数据收集存放在大型和大量的数据库中,没有强有力的工具,这些数据就变成了“数据坟墓”——难得再访问的数据档案。因此数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。;2.1 KDD定义 人们给KDD下过很多定义,内涵也各不相同,目前公认的定义是由Fayyad等人提出的。 所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。 ; 2.2 KDD过程 KDD是一个人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,KDD过程主要经由三个部分组成,即数据整理、数据挖掘和结果的解释评估。;知识发现(KDD)的过程;知识发现(KDD)的步骤;数据变换:根据知识发现的任务对经过预处理的数据再处理,主要是通过投影或利用数据库的其它操作减少数据量。 确定KDD目标:根据用户的要求,确定KDD要发现的知识类型。 选择算法:根据步骤5确定的任务,选择合适的知识发现算法,包括选取合适的模型和参数。 ;数据挖掘:这是整个KDD过程中很重要的一个步骤。运用前面的选择算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。 模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。 知识评价:将发现的知识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。;什么是数据挖掘 数据挖掘(从数据中发现知识) 从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识。 其它可选择的名字 数据库中知识挖掘、知识提取、数据/模式分析、数据考古、数据捕捞、信息获取、事务智能等。 广义观点 数据挖掘是从存放在数据库、数据仓库中或其它信息库中的大量数据中挖掘有趣知识的过程。;数据挖掘系统的组成 数据库、数据仓库或其他信息库:是一个或一组数据库、数据仓库、电子表格或其他类型的信息库。可以在数据上进行数据清理和集成。 数据库或数据仓库服务器:根据用户的挖掘请求,数据库或数据仓库服务器负责提取相关数据。 知识库:是领域知识,用于指导有哪些信誉好的足球投注网站,或评估结果模式的兴趣度。; 数据挖掘引擎:数据挖掘系统的基本部分,由一组功能模块组成,用于特征化、关联、分类、聚类分析以及演变和偏差分析。 模式评估模块:使用兴趣度量,并与数据挖掘模块交互,以便将有哪些信誉好的足球投注网站聚焦在有趣的模式上,可能使用兴趣度阈值过滤发现的模式。 图形用户界面:该模块在用户和数据挖掘系统之间通信,允许用户与系统交互,指定数据挖掘查询或任务,提供信息,帮助有哪些信誉好的足球投注网站聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。;;3.1 可以分别按挖掘任务、挖掘对象和挖掘方法来分类。 按挖掘任务分类:包括分类或预测知识模型发现,数据总结,数据聚类,关联规则发现,时序模式发现,依赖关系或依赖模型发现,异常和趋势发现等。 按挖掘对象分类:包括关系数据库,面向对象数据库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,数据仓库,演绎数据库和Web数据库等。;按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,其中: 统计方法可分为:回归分析(多元回归、自回归等),判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分析(系统聚类、动态聚类等),探索性分析(主成分分析、相关分析等)等。 机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗传算法等。 神经网络方法可以分为:前向神经网络(BP算法等),自组织神经网络(自组织特征映射、竞争学习等)。 数据库方法分为:多为数据分析和OLAP技术,此外还有面向属性的归纳方法。;数据挖掘技术分类;3.2 数据挖掘方法 粗糙集 1982年波兰数学家Z.Pawlak针对G.Frege的边界线区域思想提出了粗糙集(Rough Set),他把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。 粗糙集理论主要特点在于它恰好反映了人们用粗糙集方法处理不分明问题的常规性,即以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到

文档评论(0)

kunpengchaoyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档