参考 Introduction课件.pptVIP

  1. 1、本文档共76页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
参考 Introduction课件

第1章 引言 -补充材料;数据挖掘介绍;数据挖掘的由来 ;背景;随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。” 快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。 由于专家系统工具过分依赖用户或专家人工地将知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。;网络之后的下一个技术热点;数据爆炸但知识贫乏 ;从商业数据到商业信息的进化 ;KDD的出现;数据挖掘的发展;数据挖掘;KDD已经成为人工智能研究热点;数据挖掘的应用;;英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。。。。。。 ;GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。。。。。。;;银行;数据挖掘在银行领域的应用;Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。 美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。;汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。。。。。。 ;基本概念区分;数据挖掘和知识发现;数据挖掘和数据仓库;数据源 ; 数据挖掘库可能是数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。但如果数据仓库的计算资源已经很紧张,那么最好还是建立一个单独的数据挖掘库。 当然为了数据挖掘也不必非得建立一个数据仓库,数据仓库不是必需的。建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程,可能要用几年的时间花上百万的钱才能完成。只是为了数据挖掘,你可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在它上面进行数据挖掘。;数据挖掘与信息处理;数据挖掘与联机分析;数据挖掘与人工智能、统计学;数据挖掘与统计学;数据挖掘基本内容;数据挖掘的定义;技术上的定义;商业角度的定义;数据挖掘的定义(续);数据挖掘的数据来源;高级数据库系统和高级数据库应用;数据挖掘功能;概念 / 类描述:特征化和区分;关联分析;(1)定义 分类 (classification):是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象的过程。 注:导出模型(或函数)是基于对训练数据集(即其类标记已知的数据对象)的分析。 (2)分类模型的导出方式 分类规则(IF-THEN)、决策树、数学公式、神经网络等。 (3)相关分析 (relevance analysis) 一般情况下,相关分析需要在分类和预测之前进行,它试图识别对于分类和预测无用的属性,且这些属性应被排除。;(1)定义 聚类 (clustering):与分类和预测不同,它主要分析数据对象,而不考虑已知的类标记。 一般情况下,训练数据中不提供类标记,因为不知道从何开始。聚类可以用于产生这种标记。 (2)聚类或分组的原则 “最大化类内的相似性、最小化类间的相似性” 对象的簇(聚类)的形成办法为:使得在一个簇中的对象具有很高的相似性,而与其它簇中的对象很不相似。所形成的每个簇可以看作一个对象类,由它可以导出规则。;(1)定义 孤立点 (outlier):数据库中的那些与数据的一般行为或模型不一致的数据对象。 大部分数据挖掘方法将孤立点视为噪声或异常而将其丢弃,然而,在一些实际应用中(如欺骗检测、军事情报分析等),罕见点事件可能比正常出现的那些更有趣。孤立点数据分析称为孤立点挖掘(outlier mining)。 (2)孤立点的检测方法 第一种方法:统计试验检测方法。假定一个数据分布或概率模型,并使用距离度量,到其它聚类的距离很大的对象被视为孤立点。 第二种方法:基于偏差点方法。通过考察一群对象主要特征上的差别识别孤立点。;(1)定义 数据演变分析 (evolution analysis):描述行为随时间变化的对象的规律或趋势,并对其建模。 演变分析包括时间相关数据的特征化、区分、关联、分类或聚类,最主要有三种演化分析方法: a) 时间序列数据分析 b) 序列或周期模式匹配 c) 基于类似性的数据分析 ;数据挖掘过程模型是确保数据挖掘工作顺利进行的关键。典型的过程模型有: (1)SPSS的5A模型——评估(Assess)、访问(Access)、分

文档评论(0)

xcs88858 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档