考研轻松理解线代协新方差矩阵.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
考研轻松理解线代协新方差矩阵

 HYPERLINK /cezorzhao/archive/2013/01/11/xiefangcha.html 也谈协方差矩阵 方差呢就是描述样本稳定性的,比如你的成绩,一会儿全班第一,一会儿不及格,这就是方差很大。张三总是在班级前十,但也没当过第一,这方差就比较小。   那么协方差到底是做什么用的呢?   我们一直在讨论一个随机变量的情况,一个随机变量的均值,一个随机变量的方差,当涉及到两个随机变量的时候,有时候我们要判定他们两个的相关性,协方差的意义就在于此。   我们再回头看方差的定义:                   这是描述的一个随机变量,   然后我们看看两个随机变量X,Y,协方差的定义如下:                  明白了吧,协方差在描述两个随机变量之间的相关度。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。 ?   基于以上理论,我们明白了协方差的意义。那么协方差矩阵又是做什么的呢?想象一下,两个随机变量X,Y我们可以用协方差表示,那么10个,20个,n个呢。协方差矩阵就产生了。定义n维随机变量Xn=[X1,X2,X3,.....Xn-1,Xn];(其实相当于n个随机变量的集合) 我们用协方差矩阵表示他们互相之间的协方差:                    (式中Un表示Xn的均值) 明显这是个对称矩阵,第i行j列,或者j行i列的值,表示Xi与Xj的协方差。 ? 好了,最后,我觉得理解协方差矩阵的关键点在于理解多维随机变量,不同维度之间的协方差,对应起来就是协方差矩阵的元素。 再谈协方差矩阵之主成分分析  HYPERLINK /2011/02/24/covariance-pca/ 2月 24日 2011 自从? HYPERLINK /2010/08/31/covariance/ \t _blank 上次谈了协方差矩阵?之后,感觉写这种科普性文章还不错,那我就再谈一把协方差矩阵吧。上次那篇文章在理论层次介绍了下协方差矩阵,没准很多人觉得这东西用处不大,其实协方差矩阵在好多学科里都有很重要的作用,比如多维的正态分布,再比如今天我们今天的主角——主成分分析(Principal Component Analysis,简称 PCA)。结合 PCA 相信能对协方差矩阵有个更深入的认识~ PCA 的缘起 PCA 大概是 198x 年提出来的吧,简单的说,它是一种通用的降维工具。在我们处理高维数据的时候,为了能降低后续计算的复杂度,在“预处理”阶段通常要先对原始数据进行降维,而 PCA 就是干这个事的。本质上讲,PCA 就是将高维的数据通过线性变换投影到低维空间上去,但这个投影可不是随便投投,要遵循一个指导思想,那就是:找出最能够代表原始数据的投影方法?。这里怎么理解这个思想呢?“最能代表原始数据”希望降维后的数据不能失真,也就是说,被 PCA 降掉的那些维度只能是那些?噪声?或是?冗余的数据。这里的噪声和冗余我认为可以这样认识: 噪声?:我们常说“噪音污染”,意思就是“噪声”干扰我们想听到的真正声音。同样,假设样本中某个主要的维度 A,它能代表原始数据,是“我们真正想听到的东西”,它本身含有的“能量”(即该维度的方差,为啥?别急,后文该解释的时候就有啦~) 本来应该是很大的,但由于它与其他维度有那么一些千丝万缕的相关性,受到这些个相关维度的干扰,它的能量被削弱了,我们就希望通过 PCA 处理后,使维度 A 与其他维度的相关性尽可能减弱,进而恢复维度 A 应有的能量,让我们“听的更清楚”! 冗余:冗余也就是多余的意思,就是有它没它都一样,放着就是占地方。同样,假如样本中有些个维度,在所有的样本上变化不明显(极端情况:在所有的样本中该维度都等于同一个数),也就是说该维度上的方差接近于零,那么显然它对区分不同的样本丝毫起不到任何作用,这个维度即是冗余的,有它没它一个样,所以 PCA 应该去掉这些维度。 这么一分析,那么 PCA 的最终目的就是“降噪”和消灭这些“冗余”的维度,以使降低维度的同时保存数据原有的特征不失真。后面我们将结合例子继续讨论。 协方差矩阵——PCA 实现的关键 前面我们说了,PCA 的目的就是“降噪”和“去冗余”。“降噪”的目的就是使保留下来的维度间的相关性尽可能小,而“去冗余”的目的就是使保留下来的维度含有的“能量”即方差尽可能大。那首先的首先,我们得需要知道各维度间的相关性以及个维度上的方差啊!那有什么数据结构能同时表现不同维度间的相关性以及各个维度上的方差呢?自然是非协方差矩阵莫属。回忆下? HYPERLINK /2010/08/31/covariance/ \t _bl

文档评论(0)

ajiangyoulin1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档