- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘,BI,商业智能,数据平台,数据挖掘算法,教材课程.ppt
数据挖掘算法 ;一、概念和术语;1.2 机器学习
(1)对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么这个计算机程序被称为在从经验E学习。
(2)机器学习是知识发现的一种方法,是指一个系统通过执行某种过程而改进它处理某一问题的能力。
;1.3 数据挖掘的对象
(1)关系型数据库、事务型数据库、面向对象的数据库;
(2)数据仓库 / 多维数据库;
(3)空间数据(如地图信息)
(4)工程数据(如建筑、集成电路的信息)
(5)文本和多媒体数据(如文本、图象、音频、视频数据)
(6)时间相关的数据(如历史数据或股票交换数据)
(7)万维网(如半结构化的HTML,结构化的XML以及其他网络信息);1.4 数据挖掘的步骤
(1)数据清理(消除噪音或不一致数据,补缺);
(2)数据集成(多种数据源可以组合在一起);
(3)数据选择(从数据库中提取相关的数据);
(4)数据变换(变换成适合挖掘的形式);
(5)数据挖掘(使用智能方法提取数据模式);
(6)模式评估(识别提供知识的真正有趣模式);
(7)知识表示(可视化和知识表示技术)。
;1.5 支持数据挖掘的关键技术
(1)数据库 / 数据仓库 / OLAP
(2)数学 / 统计(回归分析:多元回归、自回归;判别分析:Bayes判别、Fisher判别、非参数判别;主成分分析、相关性分析;模糊集;粗糙集)
(3)机器学习(聚类分析;关联规则;决策树;范例推理;贝叶斯网络;神经网络;支持向量机;遗传算法)
(4)可视化:将数据、知识和规则转化为图形表现的形式。;1.6 数据仓库
(1)数据仓库是一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理人员的决策。
(2)数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。
(3)数据仓库的逻辑结构是多维数据库。数据仓库的实际物理结构可以是关系数据存储或多维数据方(Cube)。
(4)数据方是由维度(Dimension)和度量(Measure)定义的一种数据集,度量存放在由维度索引的数据方单元中。???度对应于模式中的属性组,度量对应于与主题相关的事实数据。数据方的物化是指预计算并存储全部或部分单元中的度量。;1.7 数据仓库的模型
(1)星形模式:最常见模型;其中数据仓库包括一个大的、包含大批数据、不含冗余的中心表(事实表);一组小的附属表(维表),每维一个。
(2)雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。
(3)星系模式:多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。;二、数据准备;2.1 维归约 / 特征提取
2.1-1 决策树归约
(1)决策树归约构造一个类似于流程图的结构:其每个非叶子结点表示一个属性上的测试,每个分枝对应于测试的一个输出;每个叶子结点表示一个决策类。
(2)在每个结点,算法选择“当前对分类最有帮助”的属性,出现在树中的属性形成归约后的属性子集。;2.1-2 粗糙集归约
(1)粗糙集理论在数学意义上描述了知识的不确定性,它的特点是把用于分类的知识嵌入集合内,使分类与知识联系在一起。
(2)知识的粒度、不可分辨关系、上近似、下近似、边界等概念见下图。
;2.1-2 粗糙集归约(续)
(3)令Q代表属性的集合 。q∈Q是一个属性,如果IND(Q?q) = IND(Q),则q在S中不是独立的;否则称q在S中是独立的。
(4)若集合满足IND(R) = IND(Q)且R中的每一个属性都是独立的,则R被称为Q的一个“约简”,记作R = RED(Q)。
(5)约简可以通过删除冗余的(不独立的)属性而获得,约简包含的属性即为“对分类有帮助”的属性。 ;2.2 数据变换
2.2-1 归一化与模糊化
有限区间的归一化:
无限区间的归一化:
模糊隶属度:;2.2-2 核函数
(1)核函数的基本思想是将在低维特征向量线性不可分的数据映射到线性可分的高维特征空间中去。
(2)映射可以是显式的,也可以是隐式的。显式映射即找到一个映射关系f,使高维空间的特征向量f (x)可以被直接计算出来。
(3)隐式映射,即引入一个核函数进行整体处理,就避免了对的直接求f (x)的计算困难。核函数即某高维特征空间中向量的内积,是核矩阵中的一个元素。
(4)并不是所有的实值函数f (x)都可以作为空间映射的核函数,只有f (x)是某一特征空间的内积时,即符合Mercer条件,它才能成为核函数。 ;2.2-2 核函数(续)
多项式函数:
高斯(RBF)函数:
多层感知机函
您可能关注的文档
最近下载
- 小升初分班考试试卷(经典题型汇总).pdf VIP
- 2025年贵州省公安厅招聘警务辅助人员笔试真题(附答案).docx
- 苏科版初中数学知识点梳理归纳(必威体育精装版最全).docx VIP
- 处处留心皆学问——统编教科书四年级上册第三单元整体设计公开课教学设计课件资料.pdf VIP
- 华为KunLun9008V5技术白皮书.docx
- 高一上学期开学第一课主题班会 课件.pptx VIP
- 工厂数字孪生解决方案(13页 PPT).pptx VIP
- 全国计算机等级考试二级c语言历年真题及解析.pdf VIP
- 1×25MW背压机组项目可行性研究报告-立项备案.doc
- 食品企业通用卫生规范.pdf VIP
文档评论(0)