第七章 概念描述:特征化及比较.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第七章 概念描述:特征化和比较 数据挖掘可以分成两类 描述性数据挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。 预测性数据挖掘:分析数据,建立一个或一组模型,并试图预测新数据集的行为。 概念描述 对于大量的细节数据,希望以简洁的描述形式(不同的粒度、不同的角度等)观察汇总的数据集。需要给出这种数据一个描述以概括出固有的特性,这种描述性数据挖掘称为概念描述。 概念描述: 特征化:对所选择的数据给出一个简单明了的描述 比较:提供对于两个或以上数据进行比较的结果 数据概化:将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。比如从南京转换到江苏,江苏转换到华东地区等 OLAP 面向属性的归纳 方法一、 OLAP 在数据立方体上进行计算和存储结果 比如顾客维选年收入、年龄、职业;产品维选彩屏手机;时间维选2003,一季度 用OLAP就能分析它们之间的一些关系,例如回答在一季度买彩屏手机的人什么样的类型的最多,约占的百分比是多少? 优点 效率高,能够计算多种汇总如:count, average, sum, min, max,还可以使用roll-down和roll-up操作。 限制 维和度量的数据类型有限,维现在一般是非数值的,度量是数值的,一般也只能是数据的简单汇总。 方法二、面向属性的归纳 步骤: 数据聚焦:选择和当前分析相关的数据,包括维。 属性移除: 如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作,或者 2)它的较高层概念用其它属性表示。 属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符(比如求和等),则运用该操作符进行概化。 属性概化阈值控制: 可以设一个缺省的或可以指定的阈值,在不同的属性值个数少于该值后则停止进一步概化。 例子:比如地区维度分为省、市、区、街道阈值为40,则大约在地区维度要概化到省一级 概化结果的表示 表格 概化结果的表示 二维交叉表 概化结果的表示 可视化方法 概化结果的表示 量化特征规则 概化关系可以用逻辑规则的形式表示,典型的是概化的元组代表一个规则的析取。 若单个概化元组不能代表工作关系中的所有元组,则规则应当带上量化信息,用满足规则的左部和满足规则右部的元组所占的百分比表示。带有量化信息的逻辑规则称为量化规则。 t_权兴趣度度量:描述规则中每个析取或对应概化关系的每个元组的典型性。 t-权 定义:设待特化的(或由规则描述的)对象类为目标类, qa是一个描述目标类的概化元组。 qa的t_权是来自初始工作关系集合中被qa涵盖的目标类元组的百分比。形式上为: 其中:n是概化关系中目标类元组的个数,q1,…..,qn是概化关系中目标类的元组, qa在q1,…..,qn中。显然,t_权的取值区间为[0.0,1.0]或[0%,100%]。 三、挖掘类比较:区分不同的类 要解决的目标 在实际应用中,对单个类(概念)的描述或特征化并不一定感兴趣,而希望挖掘一种描述,它将一个类(概念)与其它可比较的类(概念)相区分。类区分(比较)挖掘将给出目标类与对比类相区别的描述。 类比较方法和实现 1)数据收集:通过查询处理数据库中相关数据集,将它划分为一个目标类和一个(多个)对比类。 2)维相关分析:选择所需要的维,去掉与概化不相关的维 3)同步概化:目标类和所有对比类概化到同一层次 4)导出比较的表示:结果可以是表、图或规则,表示中一般包括对比的度量(如count%) * * 2、例,在下面的初始工作表上做属性归纳 姓名 性别 专业 籍贯 出身日期 信用情况 电话 学历 张明 男 计算机 南京 79。01 良 4316111 本 李枚 女 生物 苏州 76。02 优 4315111 研 李山 男 高分子化学 盐城 80。02 中 4315808 本 ... .. ... ... ... ... …. .. 王民 男 通信工程 镇江 80。04 一般 4315807 本 对于每个属性,概化讨论如下: 1)姓名、电话:该属性的值有许多,并且无概化操作,属性删除 2)性别:属性可取的值2个,属性保留不概化 3)专业:假定我们事先已定义了一个概念分层,可以将专业概化到{艺术、 化学、机械、通信、信息、…..},所以可被概化 4)籍贯:此表以城市为单位,已无法概化,值不算太多,保留 5)出生日期:假定存在概念分层,首先概化到年龄,再到年龄段 6)信用:假定有{优、良、中、一般、差}的分层,可以概化 7)学历:可以按{博士生、硕士生、本科生}概化 概化过程将产生相等的元组,相等的元组归为一类并给出计数 性别 专业 籍贯 年龄段 信用情况 计数 男 信息 南京 19-22 良 10 女 信息 南京 19-22 优 9 男 化学 盐城 19

文档评论(0)

0520 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档