《数据挖掘的功能及应用作业.docVIP

下载本文档

2
0
约6.58千字
约 7页
2017-01-13 发布于北京
举报
版权申诉

《数据挖掘的功能及应用作业.doc

1、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《数据挖掘的功能及应用作业

数据挖掘的其他基本功能介绍一、关联规则挖掘关联规则挖掘是挖掘数据库中和指标（项）之间有趣的关联规则或相关关系。关联规则挖掘具有很多应用领域，如一些研究者发现，超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。基本概念设是项组合的记录，D为项组合的一个集合。如超市的每一张购物小票为一个项的组合（一个维数很大的记录），而超市一段时间内的购物记录就形成集合D。我们现在关心这样一个问题，组合中项的出现之间是否存在一定的规则，如A游泳衣，B太阳镜，，但是得不到足够支持。在规则挖掘中涉及到两个重要的指标： ① 支持度支持度，显然，只有支持度较大的规则才是较有价值的规则。 ② 置信度置信度，显然只有置信度比较高的规则才是比较可靠的规则。因此，只有支持度与置信度均较大的规则才是比较有价值的规则。 ③ 一般地，关联规则可以提供给我们许多有价值的信息，在关联规则挖掘时，往往需要事先指定最小支持度与最小置信度。关联规则挖掘实际上真正体现了数据中的知识发现。如果一个规则满足最小支持度，则称这个规则是一个频繁规则；如果一个规则同时满足最小支持度与最小置信度，则通常称这个规则是一个强规则。关联规则挖掘的通常方法是：首先挖掘出所有的频繁规则，再从得到的频繁规则中挖掘强规则。在少量数据中进行规则挖掘我们可以采用采用简单的编程方法，而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。关联规则挖掘可以使我们得到一些原来我们所不知道的知识。应用的例子： * 日本超市对交易数据库进行关联规则挖掘，发现规则：尿片→啤酒，重新安排啤酒柜台位置，销量上升75%。 * 英国超市的例子：大额消费者与某种乳酪。那么，证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则，这些关联规则究竟说明了什么？关联规则挖掘通常比较适用与记录中的指标取离散值的情况，如果原始数据库中的指标值是取连续的数据，则在关联规则挖掘之前应该进行适当的数据离散化（实际上就是将某个区间的值对应于某个值），数据的离散化是数据挖掘前的重要环节，离散化的过程是否合理将直接影响关联规则的挖掘结果。二、特征化与比较 1、特征化是一种描述性数据挖掘，特征化通过数据挖掘的方法提供给定数据汇集的简洁汇总，如银行优质客户的特征，从而发现潜在的优质客户；转向其他银行的优质客户的特征，从而设法留住可能会转向其他银行的优质客户，特征化在银行客户关系管理等领域具有很大作用。描述性数据挖掘——特征化的基本原理 ① 属性删除某一类的特征化就是找出某一类的共性，因此如果某个属性具有大量不同的值，而且每个值所占的比率都不能达到事先给定的临界值，同时在这个属性上没有概化操作符（指标上卷），则数据挖掘对其进行属性删除。 ② 属性概化如果在属性上存在概化操作符，并且原属性取值没有达到事先给定的临界值，则数据挖掘就将这个属性概化到较高层次，即使原属性取值已经达到临界值，数据挖掘也可以继续进行属性概化。通过属性删除和属性概化，可以得到特征化的数据挖掘。 2、比较特征化是给定某一类样本的特征，而比较则是区分不同的类，比较又通常称为挖掘类比较。如信用卡诈骗者和非诈骗者，这两类信用卡持有者的比较。类比较通常是一个指定的类与一个其它的类、或者几个其它的类进行比较，类比较的基本方法是：首先在目标类上发觉特征，然后在对比类上进行同步概化，这样就可以挖掘类比较。特征化与类比较具有很广泛的应用领域。如：被外资并构公司与没有被外资并构公司进行类比较；不同审计意见的公司的类比较；信用卡诈骗与非诈骗类的比较；银行优质客户中忠诚客户与转向其他银行的原优质客户的比较；等等。三、聚类分析聚类分析就是根据样本之间的相似程度，将样本分成几个不同的类。如我国各城市社会经济发展程度的聚类分析，利用聚类分析研究我国女子成衣的尺寸标准。原来测量了成年女子14个部位的指标数据：上体长、手臂长、胸围、颈围、总肩宽、前胸宽、后背宽、前腰节高、后腰节高、总体长、身高、下体长、腰围、臀围。经过聚类分析发现可以聚集为几类，每类主要在反映身高与反映胖瘦上有所区别，这样就可以制定几种标准尺寸，可以照顾到我国绝大多数成年女子的购衣要求。聚类分析在金融领域中有广泛应用，如根据股票价格的波动情况，可以将股票分成不同的类，总共可以分成几类，各类包含哪些股票，每一类的特征是什么，这对投资者、尤其对投资基金来说，可能就是很重要的信息。聚类分析也是分类，但是要划分的类是未知的，这是聚类分析与一般判别分析的区别。聚类分析的基本原理，样本间距离的度量。距离采用绝对值距离、欧氏距离、切比雪夫距离等，其中：，利用距离可以度量不同样本之间的相似程度，在测量距离时，往往首先需要进行标准化变换，以消除量纲带来的影响。当指标为非数