第五章主成分分析(主成分模型).doc

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章主成分分析(主成分模型)

第五章 主成分分析与经验正交分解 主分量分析的数学模型 当存在若干个随机变量时,寻求它们的少量线性组合(即主成分),用以解释这些随机 变量,是很必要的。首先我们看一个例子。 几个数据集 1、 身材情况能否用单个指标刻画 男女身材之间有什么异同 chest waist hips gender chest waist hips gender 34 30 32 male 36 24 35 female 37 32 37 male 36 25 37 female 38 30 36 male 34 24 37 female 36 33 39 male 33 22 34 female 38 29 33 male 36 26 38 female 43 32 38 male 37 26 37 female 40 33 42 male 34 25 38 female 38 30 40 male 36 26 37 female 40 30 37 male 38 28 40 female 41 32 39 male 35 23 35 female 2、 subject maths english history geography chemistry physics 1 60 70 75 58 53 42 2 80 65 66 75 70 76 3 53 60 50 48 45 43 4 85 79 71 77 68 79 5 45 80 80 84 44 46 3、 air pollution in cities in the USA. The following variables were obtained for 1 US cities: SO2: SO2 content of air in micrograms per cubic metre; temp: average annual temperature in degrees Fahrenheit; manu: number of manufacturing enterprises employing 20 or more workers; popul: population size (1970 census) in thousands; wind: average annual wind speed in miles per hour; precip: average annual precipitation in inches; predays: average number of days with precipitation per year. 例5.1 为了调查学生的身材状况,可以测量他们的身高()、体重()、胸围()和坐高()。可是用这4个指标表达学生身材状况不方便。但若用 =3.6356+3.3242+2.4770+2.1650 表示学生身体魁梧程度;用 =-3.9739+1.3582+3.7323-1.5729 表示学生胖瘦程度。则这两个指标(,)很好概括了4个指标(-))、体重()、胸围()和坐高()不同;(, , , )是4维随机向量;,是他们的2个线性组合,,能很好表示, , , 的特性。类似的问题在许多地方出现:可观测的随机变量很多,需要选出所有所有随机变量的少数线性组合,使之尽可能刻划全部随机变量的特性,选出的线性组合就是诸多随机变量的主成分,又称为主分量。寻求随机向量主成分,并加以解释,称为主成分分析,又称为主分量分析。主成分分析在许多学科中都有应用,细节可参看张尧廷(1991)、Richard(2003),主成分分析在气象等科学中称为PCA方法,见吴洪宝(2005)。 主成分分析的数学模型是:对于随机向量X,想选一些常数向量,用尽可能多反映随机向量X的主要信息,也即尽量大。但是的模可以无限增大,从而使无限变大,这是我们不希望的;于是限定模的大小,而改变各分量的比例,使最大;通常取的模为1最方便。 定义5.1 设随机向量二阶矩存在,若常数向量,在条件=1下 使最大,则称是X的第一主成分或第一主分量。 由定义可见,尽可能多地反映原来p个随机变量变化的信息。但是一个主成分往往不能完全反映随机向量特色,必须建立其它主成分,它们也应当最能反映随机向量变化,而且他们应当与第一主成分不相关(不包含的信息)。 定义5.2 若常数向量c=在条件=l,下,使最大, 则称是 X的第二主成分;若常数向量c=在条件=l,, 下,使最大,则称是 X的第三主成分;…。 当随机向量方差已知时,定理5.1给出主成分的计算公式。 定理5.1 设随机向量方差存在为。特征值从大到小为 ,对应的彼此正交单位特征向量为。则X的第j个主成分 为 与X的内积,即

文档评论(0)

liudao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档