(5.1.8)--1.4数据合并与数据变换.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数学建模MathematicalModeling

数据合并与数据变换DataConsolidation?andDataTransformation

数据变换的重要性01

一、数据变换的重要性为什么要对数据进行变换1.为什么要对数据变换例如回归分析中的异方差性,误差项的方差随着自变量的变化而变化,如果直接进行回归估计残差的方差会随着自变量的变化而变化,如果对变量进行适当变换,此时残差服从同一个正态分布。可以更好的发现数据之间的关系。2.为什么要对数据进行标准化数据标准化的主要功能就是消除变量间的量纲关系,从而使数据具有可比性。将数据变成可以挖掘使用的形式,更好的探索数据中隐藏的信息。

数据合并02

横向堆叠:即将两个表在X轴向拼接在一起,可以使用concat函数完成。即axis=1时,concat做行对齐,将不同列名称的两张或多张表合并。二、数据合并纵向堆叠:即将两个表在Y轴向拼接在一起,可以使用concat函数完成。在默认情况下,即axis=0时,concat做列对齐,将不同行索引的两张或多张表纵向合并。横向表纵向表堆叠

表一表二ABCD1A1B1C1D12A2B2C2D23A3B3C3D34A4B4C4D4BDF2B2D2F24B4D4F46B6D6F68B8D8F8合并后表三ABCDBDF1A1B1C1D1NaNNaNNaN2A2B2C2D2B2D2F23A3B3C3D3NaNNaNNaN4A4B4C4D4B4D4F46NaNNaNNaNNaNB6D6F68NaNNaNNaNNaNB8D8F8横向堆叠原理示意如下:二、数据合并

ABCD1A1B1C1D12A2B2C2D23A3B3C3D34A4B4C4D4BDF2B2D2F24B4D4F46B6D6F68B8D8F8ABCDF1A1B1C1D1NaN2A2B2C2D2NaN3A3B3C3D3NaN4A4B4C4D4NaN2NaNB2NaND2F24NaNB4NaND4F46NaNB6NaND6F68NaNB8NaND8F8表一表二纵向堆叠原理示意如下:二、数据合并合并后表三

通过一个或多个键将两个数据集的行连接起来,主要利用merge函数。主键合并数据二、数据合并ABKey1A1B1K12A2B2K23A3B3K34A4B4K4CDKey1C1D1K12C2D2K23C3D3K34C4D4K4ABKeyCD1A1B1K1C1D12A2B2K2C2D23A3B3K3C3D34A4B4K4C4D4左表一右表二原理示意如下:合并后表三

若出现两份数据的内容几乎一致的情况,但是某些特征在其中一张表上是完整的,而在另外一张表上的数据则是缺失的时候,可以用combine_first方法进行重叠数据合并。重叠合并数据二、数据合并0120NaN3.05.01NaN4.6NaN2NaN7.0NaN012142NaN8.22107.04.00120NaN3.05.01424.68.22107.04.0表8表9原理示意如下:合并后表10

数据变换03

?其中,max为样本数据的最大值,min为样本数据的最小值,max-min为极差。离差标准化保留了原始数据值之间的联系,是消除量纲和数据取值范围影响最简单的方法。三、数据变换标准化数据离差标准化数据

??标准差标准化数据三、数据变换标准化数据

?三、数据变换标准化数据小数定标标准化数据

这三种标准化方法各有其优势:离差标准化方法简单,便于理解,标准化后的数据限定在[0,1]区间内;标准差标准化受到数据分布的影响较小;小数定标标准化方法适用范围广,并且受到数据分布的影响较小,相比较于前两种方法而言该方法适用程度适中。三、数据变换标准化数据小结

三、数据变换简单函数变换简单函数变换就是对原始数据进行某些数学函数变换,常用的函数变换包括平方、开方、对数、差分运算等。作用:平方、开方、对数变换,在特定情况下,可以将不具有正态分布的数据变换成具有正态分布的数据作用:差分运算一般可以将非平稳序列转换成平稳序列????

三、数据变换连续属性离散化一些数据挖掘算法,特别是某些分类算法,要求数据是分类属性形式,如ID3算法(决策树,分类算法)、Apriori算法(关联算法)等。这样,常常需要将连续属性变换成分类属性,即连续属性离散化。离散

文档评论(0)

158****6446 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档