- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘的扼要介绍
数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 动机:需要是发明之母 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库、数据仓库和其它信息存储器中 我们正被数据淹没,但却缺乏知识 解决办法:数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等) 什么是数据挖掘 数据挖掘 (数据库中知识发现) 从大型数据库中提取有趣的 (非平凡的、蕴涵的、先前未知的且是潜在有用的) 信息或模式 其它名称 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD), 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology), 数据捕捞(data dredging), 信息收获(information harvesting), 商务智能(business intelligence) 等 数据挖掘可能的应用 数据库分析和决策支持 市场分析和管理:针对销售(target marketing), 顾客关系管理,购物篮分析,交叉销售(cross selling),市场分割(market segmentation) 风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析 欺骗检测与管理 数据挖掘可能的应用 其它应用 文本挖掘(新闻组、email、文档资料) 流数据挖掘(Stream data mining) Web挖掘 DNA 数据分析 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘的过程 数据挖掘:KDD的核心 数据挖掘的过程 数据挖掘:KDD的核心 KDD的步骤 学习应用领域 相关的先验知识和应用的目标 创建目标数据集:数据选择 数据清理和预处理(可能占全部工作的 60%!) 数据归约与变换 发现有用的特征,维/变量归约,不变量的表示 选择数据挖掘函数 汇总,分类,回归,关联,聚类 KDD的步骤 选择挖掘算法 数据挖掘:有哪些信誉好的足球投注网站有趣的模式 模式评估和知识表示 可视化,变换,删除冗余模式,等 发现知识的使用 典型的数据挖掘系统结构 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘在什么数据上进行 平面文件 关系数据库 包括面向对象和对象-关系数据库 事务(交易)数据库 异种数据库和遗产数据库 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 多媒体数据库 数据挖掘在什么数据上进行 时间序列数据库 数据挖掘在什么数据上进行 文本数据库 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘的功能 概念描述:特征和区分 概化,汇总,比较数据特征,如干燥和潮湿的地区 关联 (相关和因果关系) 多维和单维关联 age(X, “20..29”) ^ income(X, “20..29K”) ?buys(X, “PC”) [support = 2%, confidence = 60%] contains(T, “computer”) ? contains(T, “software”)[support = 1%, confidence = 75%] 数据挖掘的功能 分类和预测 找出描述和识别类或概念的模型(函数),用于将来的预测 例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类 表示:决策树(decision-tree), 分类规则,神经元网络 预测:预测某些未知或遗漏的数值 数据挖掘的功能 聚类分析 类标号(Class label)未知:对数据分组, 形成新的类。例如,对房屋分类,找出分布模式 聚类原则:最大化类内的相似性,最小化类间的相似性 数据挖掘的功能 孤立点(Outlier)分析 孤立点:一个数据对象,与数据的一般行为不一致 孤立点可以被视为例外,但对于欺骗检测和罕见事件分析,它是相当有用的 趋势和演变分析 趋势和偏离:回归分析 序列模式挖掘,周期性分析 基于相似的分析 其它基于模式或统计的分析 数据挖掘:多学科交叉 数据挖掘的分类 一般功能 描述式数据挖掘 预测式数据挖掘 不同的角度、不同的分类 待挖掘的数据库类型 待发现的知识类型 所用的技术类型 所适合的应用类型 数据挖掘从不同角度的分
您可能关注的文档
- 数值分析(计算方法)第七章.ppt
- 敞开心扉学会沟通上课课件1.ppt
- 数值分析4-06.ppt
- 教科版必修1 .弹 力课件.ppt
- 散文阅读ppt.ppt
- 数值的机器运算.ppt
- 数字信号处理第三章-1.ppt
- 数字信号处理第一章差分方程、抽样.ppt
- 敬畏生命(优质课竞赛).ppt
- 数字图像处理 第六章 图像的几何变换.ppt
- 8《大卫·科波菲尔》课件 统编版高二语文选择性必修上册.pptx
- 1.《社会历史的决定性基础》课件 统编版高二语文选择性必修中册.pptx
- 2025届高考物理知识梳理课件第七章 第2讲电场能的性质(共52张ppt).pptx
- 2025届高考物理知识梳理课件第四章 专题五卫星运动的四类热点问题(共37张ppt).pptx
- 2025届高考物理知识梳理课件第七章 第3讲电容器 带电粒子在电场中的运动(共53张ppt).pptx
- 2025届高考物理知识梳理课件第八章 第1讲电流 电阻 电功 电功率(共39张ppt).pptx
- 2025届高三英语基础写作:邀请外教做评委课件(共17张PPT).pptx
- 2025届高考物理知识梳理课件第七章 第1讲电场力的性质(共53张ppt).pptx
- 爆款短视频拍摄-分镜脚本与摄影技巧:分镜第五步,拍类型PPT教学课件.pptx
- 保险基础与实务:人身保险PPT教学课件.pptx
文档评论(0)