数据处理方法精选.docVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据处理方法精选

回归问题和一些机器学习算法中,以及训练神经网络的过程中,通常需要对原始数据进行中心化(Zero-centered或者Mean-subtraction)处理和标准化(Standardization或Normalization)处理。 目的:通过中心化和标准化处理,得到均值为0,标准差为1的服从标准正态布的数据。计算过程由下式表示: 下面解释一下为什么需要使用这些数据预处理步骤。在一些实际问题中,我们得到的样本数据都是多个维度的,即一个样本是用多个特征来表征的。比如在预测房价的问题中,影响房价的因素有房子面积、卧室数量等,我们得到的样本数据就是这样一些样本点,这里的、又被称为特征。很显然,这些特征的量纲和数值得量级都是不一样的,在预测房价时,如果直接使用原始的数据值,那么他们对房价的影响程度将是不一样的,而通过标准化处理,可以使得不同的特征具有相同的尺度(Scale)。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了。 简言之,当原始数据不同维度上的特征的尺度(单位)不一致时,需要标准化步骤对数据进行预处理。 下图中以二维数据为例:左图表示的是原始数据;中间的是中心化后的数据,数据被移动大原点周围;右图将中心化后的数据除以标准差,得到为标准化的数据,可以看出每个维度上的尺度是一致的(红色线段的长度表示尺度)。 其实,在不同的问题中,中心化和标准化有着不同的意义, 比如在训练神经网络的过程中,通过将数据标准化,能够加速权重参数的收敛。 另外,对于主成分分析(PCA)问题,也需要对数据进行中心化和标准化等预处理步骤 二、利用Excel对数据进行标准化处理 在使用各种方法进行综合评价时,首先要对原始数据进行标准化和无量纲化处理,本例分享利用office的Excel对数据进行标准化处理,使用的是极值处理法。1. 该种方法的算法即标准化公式如附图所示,注:对于指标值恒定的情况不适用。 这里以我国2007年中部地区6省的税收数据为例进行计算。易知,附图中的税收指标为极大型数据。所以采用的公式为x=(x-min)/(Max-min),这样标准化后的数据最大值为1,最小值为0 使用Max,Min函数分别求出数据矩阵中每列中的最大值和最小值。 ?Max ?146.1136 ?184.2366 ?102.9228 ?30.2578 ?25.8857 ?42.8733 ?15.656 ?7.8004 ?18.2303 ?14.9975 ?1.9689 ?17.1054 ?35.0698 ?3.3696 ?Min ?53.0534 ?95.0788 ?37.8106 ?14.8271 ?2.8286 ?17.0098 ?5.7824 ?3.1799 ?4.1246 ?1.1311 ?0.3081 ?1.7933 ?5.5753 ?0.0874 再求出极值处理法的分母即最大值与最小值的差值 ?max-min ?93.0602 ?89.1578 ?65.1122 ?15.4307 ?23.0571 ?25.8635 ?9.8736 ?4.6205 ?14.1057 ?13.8664 ?1.6608 ?15.3121 ?29.4945 ?3.2822 使用每列中的数值与最小值的差比上分母即可求出标准化后的数据。公式举例:值=(B6-$B$13)/$B$14。如附图所示为使用极值处理法后的前后数据对比。 一、熵shang权法介绍 ???????熵最先由申农引入信息论,目前已经在工程技术、社会经济等领域得到了非常广泛的应用。 ???????熵权法的基本思路是根据指标变异性的大小来确定客观权重。 ???????一般来说,若某个指标的信息熵越小,表明指标值得变异程度越大,提供的信息量越多,在综合评价中所能起到的作用也越大,其权重也就越大。相反,某个指标的信息熵越大,表明指标值得变异程度越小,提供的信息量也越少,在综合评价中所起到的作用也越小,其权重也就越小。 二、熵权法赋权步骤 1.?数据标准化 ???????将各个指标的数据进行标准化处理。 ???????假设给定了k个指标,其中。假设对各指标数据标准化后的值为,那么。 2.?求各指标的信息熵 ???????根据信息论中信息熵的定义,一组数据的信息熵。其中,如果,则定义。 3.?确定各指标权重 ???????根据信息熵的计算公式,计算出各个指标的信息熵为?。通过信息熵计算各指标的权重:?。 三、熵权法赋权实例 1.?背景介绍 ???????某医院为了提高自身的护理水平,对拥有的11个科室进行了考核,考核标准包括9项整体护理,并对护理水平较好的科室进行奖励。下表是对各个科室指标考核后的评分结果。 ???????但是由于各项护理的难易程度不同,因此需要对9项护理进行赋权,以便能够更加合理的对

文档评论(0)

pfenejiarz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档