数据预处理PPT课件.pptVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据预处理PPT课件

数据预处理;为什么要进行数据挖掘?;为什么数据预处理重要?;数据预处理的主要内容:;数据预处理的主要内容;一、原始数据的表述;常见的数据类型有:数值型和分类型。 数值型包括实型变量和整型变量 注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。 ;一个有两个值的分类型变量: 分类型变量的两个值可以平等或不平等。 原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1; 而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。;例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。 特征值 编码 黑色 1000 蓝色 0100 绿色 0010 褐色 0001;变量的分类:连续型变量和离散型变量。 连续型变量也认为是定量型或是量度型,是指在一定区间内可以任意取值的变量。 离散型变量也叫定性型变量,是指全部可能取到的不相同的值是有限个的变量。 注:一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。;与时间有关的数据分类: 静态数据——数据不随时间变化而变化 动态数据(时间数据)——随时间变化而变化的属性。 注:大多数数据挖掘方法更适用于静态数据,在对动态数据进行挖掘时要有特殊的考虑和预处理。;二、数据清理——缺失值的填补;1、单一填补法 (1)均值填补法。 均值填补法是根据与含缺失值的目标属性相关性高的其它属性的信息将样品分为若干组,然后分别计算各组目标属性的均值,将各组均值作为组内所有缺失项的填补值。 均值填补的优点是操作简便,并且可以有效地降低其点估计的偏差。 但它的缺点也比较突出:首先,由于同组中的缺失值由同一个值填补,填补结果歪曲了目标属性的分布;其次,也导致在均值和总量估计中对方差的低估。;例:;均值填补:;;(3)热卡填补法。 热卡填补法(hot deck imputation)是规定一个或多个排序属性,按其观察值大小对全部观察单位排序,如果选择的是两个以上的属性,排序按属性的入选顺序依次进行。 排序属性值完全相同的观察单位称为匹配,缺??值就用与之匹配的观察单位的属性值来填补。如果有多例相匹配,可取第一例或随机取其一。如果没有相匹配的,可以每次减少一个排序属性,再找相匹配的元组。如果直到最后一个排序属性,还没有找到相匹配的,则需要重新规定排序属性。 ;;例:;(二)异常值(孤立点)探测;异常值的探测方法;第二,基于距离的异常点检测(二维以上数据);异常点;;第三:基于分类预测模型的异常值探测 异常值的探测也可以认为是一类特殊的分类问题。因为对于一般的分类问题,考虑的是如何将各种类别有效地分开,而在异常值探测中,分类的目标是准确地描述总体的正常行为特征,在此之外大范围的其它对象被视为异常值。 其基本思想是:对总体的特征建立分类模型,形成正常行为的特征库;然后针对新的数据判断其是否属于正常行为,从而认定其是否与总体偏离,发生偏离的即是异常值。 根据所建立的分类器的不同,异常值的探测方法有以下几种:决策树分类;贝叶斯分类;神经网络分类;聚类。 ;异常值探测的应用;具体的实现途径是:利用聚类、神经网络和决策树等分类方法,通过分析用户的购买、投保或消费习惯,细分客户,以此分辨出偏离模式的信用卡欺诈行为;然后,推导出合法交易的定义,建立模型;利用模型来分析一个新的交易是合法还是非法。 也可以通过六西格玛探测、聚类等方法,寻找出与正常投保行为有极大差别的不正常行为,即有可能的欺诈行为。 除了利用上述技术对异常数据进行识别外,还可以通过关联规则的Apriori算法寻找异常数据间的隐含模型,从而达到反欺诈的目的。;例如:对电信用户的欺诈行为探测的具体做法是: 首先,将目标属性定为无意欠费客户和恶意欠费两类; 其次,选择属性作为输入属性,通常包括服务合同属性(如服务类型、服务时间、交费类型等)、客户的基本状态(如性别、年龄、收入、婚姻状况、受教育年限/学历、职业、居住地区等)以及经常或定期改变的数据(如每月消费金额、交费纪录等); 然后,将分类方法用于预先选定的包含客户欠费状态的训练集中,从而挖掘归纳出规则集; 最后,利用所获取的规则,对电信企业新用户的缴费情况进行预测分类,从而达到预防欺诈的目的。;三、数据变换;为什么要进行标准化?;1、小数缩放;最小-最大规范化是对原始数据进行线性变换。 最小-最大规范化的格式: 从而将X的值映射到[0,1]中。;3、标准差规范化(z-score规范化);为什么要进行数据的平滑?;数据平滑:是指去掉数据中的噪声。这种技术包括分箱技术、聚类和回归。;1、分箱;例如:某产品的价格

文档评论(0)

gz2018gz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档