数据挖掘算法.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘算法

数据挖掘 概念和术语 数据准备 算法 性能评估 基本概念 数据挖掘和知识发现 机器学习 数据挖掘对象 基本步骤 关键技术 数据挖掘 / 知识发现 (1)数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。 (2)一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程,它与数据仓库有着密切的联系。 (3)广义的数据挖掘是指知识发现的全过程;狭义的数据挖掘是指统计分析、机器学习等发现数据模式的智能方法,即偏重于模型和算法。 (4)数据库查询系统和专家系统不是数据挖掘! 机器学习 (1) 对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么这个计算机程序被称为在从经验E学习。 (2) 机器学习是知识发现的一种方法,是指一个系统通过执行某种过程而改进它处理某一问题的能力。 数据挖掘对象 (1)关系型、事务型、和面向对象的数据库; (2)数据仓库 / 多维数据库 (3)空间数据(如地图信息) (4)工程数据(如建筑、集成电路的信息) (5)文本和多媒体数据(如文本、图象、音频、视频等) (6)时间相关的数据(如历史数据或股票交换数据) (7)万维网(如HTML,XML及其他) 数据挖掘步骤 (1)数据清理(消除噪音或不一致数据,补缺); (2)数据集成(多种数据源可以组合在一起); (3)数据选择(从数据库中提取相关的数据); (4)数据变换(变换成适合挖掘的形式); (5)数据挖掘(使用智能方法提取数据模式); (6)模式评估(识别提供知识的真正有趣模式); (7)知识表示(可视化和知识表示技术)。 关键技术 (1)数据库 / 数据仓库 / OLAP (2)数学 / 统计(回归分析:多元回归、自回归;判别分析:Bayes判别、Fisher判别、非参数判别;主成分分析、相关性分析;模糊集;粗糙集) (3)机器学习(聚类分析;关联规则;决策树;范例推理;贝叶斯网络;神经网络;支持向量机;遗传算法) (4)可视化:将数据、知识和规则转化为图形表现的形式 数据准备 现实世界的数据是不完整的含噪音的不一致的 需要数据清理、数据集成、数据选择、数据变换等技术对数据进行处理。 维归约 / 特征提取(决策树归约,粗糙集归约等) 数据压缩(数据离散化,主成分分析,语义分析,聚类分析等) 数据挖掘算法的目标 (1)概念描述(总结,对比等) (2)关联规则分析 (3)分类与预测 (信息自动分类,信息过滤,图像识别等) (4)聚类分析 (5)异常分析(入侵检测,金融安全等) (6)趋势、演化分析(回归,序列模式挖掘) 机器学习的不同训练方式 (1)有监督的学习;有训练样本,学习机通过学习获得训练样本包含的知识,并用其作为判断测试样本的类别的依据。 (2)无监督的学习:无训练样本,仅根据测试样本的在特征空间分布情况判断其类别。 (3)半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。 (4)强化学习:没有训练样本,但有对学习机每一步是否更接近目标的奖惩措施。 有监督的学习 半监督的学习 无监督的学习 数据挖掘算法 关联规则挖掘 决策树 人工神经网络 朴素贝叶斯(Naive Bayes)分类器 期望最大化(EM) K-最近邻分类 遗传算法 聚类分析 其他(隐马尔可夫模型,支持向量机,关系学习) 性能评估 理想的分类器应该将所有属于某一类的样本标记为该类;且不将任何一个不属于该类的样本标记为该类。 准确率(P) = 召回率(R) = 性能评价 (2) 同一分类器,准确率和查全率的变化趋势通常相反 不应片面追求一个指标而完全不顾及另一个 使用一种能够全面评价分类器性能的指标:F-1 F-1 = 综合考虑了上述两指标,且偏向于准确率和查全率中较小的一个,只有当准确率和查全率都较大时,F-1指标才会比较大 多数分类器可以通过调整参数获得不同的准确率和查全率 性能评价 (3) 在综合考虑全部类别的条件下,精确度(Accuracy)也是一个常用的指标,它是指所有分类正确的样本数在所有样本中所占的比例 精确度(A) = 除了准确性、可扩展性之外,还有速度和可理解性也可以作为分类器的比较指标

文档评论(0)

busuanzi + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档