- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘考试复习要点
主要内容 数据挖掘综述 数据仓库和数据挖掘的OLAP技术 数据预处理 数据挖掘原语、语言和系统结构 概念描述:特征化与比较 挖掘大型数据库中的关联规则 分类和预测 聚类分析 复杂类型数据的挖掘 数据挖掘的应用和发展趋势 我们拥有丰富的数据,但却缺乏有用的信息 解决方法:数据仓库技术和数据挖掘技术 数据仓库(Data Warehouse)和在线分析处理(OLAP) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,模式,约束) 数据库技术的演化 1960s和以前:文件系统 1970s: 层次数据库和网状数据库( 1973年 查理士·巴赫曼 ) 1980s早期:关系数据模型, 关系数据库管理系统(RDBMS)的实现 1980s晚期:各种高级数据库系统(扩展的关系数据库,面向对象数据库等等.) 面向应用的数据库系统 (spatial数据库,时序数据库,多媒体数据库等等) 1990s: 数据挖掘, 数据仓库, 多媒体数据库和网络数据库 2000s流数据管理和挖掘 基于各种应用的数据挖掘 XML数据库和整合的信息系统 什么是数据挖掘? 数据挖掘 (从数据中发现知识) 从大量的数据中挖掘哪些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 挖掘的不仅仅是数据(所以“数据挖掘”并非一个精确的用词) 数据挖掘的替换词 数据库中的知识挖掘(KDD)、知识提炼、 数据/模式分析、数据考古、数据捕捞、信息收获等等。 并非所有东西都是“数据挖掘” 查询处理. 专家系统或是小型的数学计算/统计程序 知识挖掘的步骤 了解应用领域 了解相关的知识和应用的目标 创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示。 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等. 选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识 数据挖掘的主要方法 (1) 概念/类描述: 特性化和区分 归纳,总结和对比数据的特性。比如:对每个月来网站购物超过5000元的顾客的描述:40-50岁,有正常职业,信用程度良好。 关联分析 发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。 广泛的用于购物篮或事务数据分析。分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 比如:按气候将国家分类,按汽油消耗定额将汽车分类 导出模型的表示: 判定树、分类规则、神经网络 可以用来预报某些未知的或丢失的数字值 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 最大化类内的相似性和最小化类间的相似性 孤立点分析 孤立点:一些与数据的一般行为或模型不一致的孤立数据 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势 趋势和偏差: 回归分析 序列模式匹配:周期性分析 、基于类似性的分析、其他定向模式或统计分析 所有模式都是有趣的吗? 数据挖掘可能产生数以千计的模式或规则,但并不是所有的模式或规则都是令人感兴趣的。 模式兴趣度的度量 一个模式是有趣的,如果(1) 它易于被人理解 ;(2)在某种程度上,对于新的或测试数据是有效的;(3)具有潜在效用;(4)新颖的;(5)符合用户确信的某种假设 模式兴趣度的客观和主观度量 客观度量: 基于所发现模式的结构和关于它们的统计, 比如: 支持度、置信度等等 主观度量: 基于用户对数据的判断。比如:出乎意料的、新颖的、可行动的等等 多种数据挖掘的视角 根据所挖掘的数据库分类 关系数据库, 事务数据库,流式数据, 面向对象数据库, 对象关系数据库,数据仓库,空间数据库, 时态数据库, 文本数据库, 多媒体数据库, 异构数据库, 历史数据库, WWW 根据挖掘的知识类型 特征分析, 区分, 关联分析, 分类, 聚类, 孤立点分析/演变分析, 偏差分析等等. 多种方法的集成和多层次挖掘 根据挖掘所用的技术 面向数据库的挖掘、数据仓库 、OLAP、机器学习、统计学、可视化等等. 根据挖掘所用的应用 金融,电信,银行, 欺诈分析, DNA分析,股票市场, Web挖掘等等. 什么是数据仓库? 数据仓库的定义很多,但却很难有一种严格的定义 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 为统一的历史数据分析提供坚实的平台,对信处理提供支持 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策
您可能关注的文档
最近下载
- 康复护理学肠道护理.pptx VIP
- 马工程党内法规学教学课件11.pptx VIP
- 学术规范与科研伦理.pptx VIP
- 马工程党内法规学教学课件5.pptx VIP
- 《太平天国运动》课件.pptx VIP
- 第二单元 第4课《数据分包灵活传》课件 2024-2025学年人教版(2024)初中信息科技七年级全一册.pptx VIP
- 课件:小儿雾化吸入护理.ppt
- 11.2.1.1 三角形的内角和(分层练习)-2023-2024学年八年级数学上册同步精品课堂(人教版)解析版.pdf VIP
- 小儿雾化吸入健康宣教.pptx
- 第4课 数据分包灵活传 课件(共15张PPT) 人教版(2024)初中信息科技七年级上册.pptx VIP
文档评论(0)