- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* §7.4 若干补充及应用中需注意的问题 *一、第一主成分与线性回归线的区别 二、主成分的保留个数 三、关于样本容量n的大小 四、关于异常值的影响 五、关于时间序列数据 六、主成分用于聚类分析 七、关于不同时期的主成分分析 八、关于定性数据 九、对主成分综合得分方法的质疑 * *一、第一主成分与线性回归线的区别 几何上第一主成分所在方向与(线性)回归线很像,但这两者是不同的。 图7.1.1中,过重心O的第一主成分y1线是使得各点到该直线的垂直距离平方和达到最小的那条线。 * 二、主成分的保留个数 应保留多少个主成分要视具体情况,很难一概而论,最终一般还得依赖于主观判断。 单从保留信息量的角度通常有以下几种选择主成分个数的方法: (1)保留的前几个主成分能使其累计贡献率达到一个较高的比例(如80%),具体需主观判断确定,这是我们最为推荐的方法。 * (2)当从S(或 )出发求主成分时,有一个经验规则是只保留特征值大于其平均值 (或1)的主成分。这是一个粗略的经验规则,只宜作为选择主成分个数的初步参考。 (3)一种能够帮助我们确定主成分个数的视觉工具,即所谓的陡坡图,见附录7-1中的输出7-1.1(续)及其说明。 (4)采用对主成分所相应的特征值进行显著性检验的方法,可参阅书中参考文献[26]中的12.6节。 * 如果我们需要对主成分进行解释,则选用多少个主成分就还需考虑所选主成分是否都能作出成功的解释,有时可能会为此降低了点累计贡献率。 如果不需要对主成分作出解释(此时的主成分得分通常只是作为进入下一阶段分析的输入数据,即主成分仅是整个分析的中间结果),则主成分个数的选择一般更倾向于保持一个足够高的累计贡献率,除非需要画散点图。 * 取多少个主成分有时也要视作图或排序的需要而定。 当取三个和四个主成分都可行时,选取三个有一大好处,就是可以利用三维旋转图对所有样品的三个主成分得分进行直观的比较分析。 当取两个和三个主成分都可行时,选取两个的主要好处是,平面散点图可以比三维旋转图观测得更为清楚和方便,且可打印输出。 当取一个和两个主成分都可行时,取一个的优点是可以对各样品进行排序(如果这种排序是有实际意义的) ,取两个的优点是可以画散点图及保留更多的信息。如果我们对样品的排序不感兴趣,则一般应考虑取两个主成分,哪怕第二主成分的贡献率明显偏低些,因为取一个主成分不利于作图。 此外,通过对前两个或三个主成分的作图,还有助于从直觉上发现异常值、评估正态性以及进行其他的探索性分析等。 * 三、关于样本容量n的大小 不同于判别分析,在主成分的计算过程中不涉及S(或 )的逆,故理论上允许n≤p。 一般(特别是在主成分本身作为目标的分析中)较理想的是能满足n很大(如n≥50)且n至少是p的五倍,这样通常可使S(或 )的值比较稳定,分析结果一般也就不会随样本的变化而发生较大的改变,从而结论更加可信。 * 四、关于异常值的影响 有时少数几个异常值就可对S(或 )的值产生较大、甚至是非常大的影响。 遇到这种异常值通常可有两种处理方法,一种是从数据中找出并直接删除之,如例8.4.4的“注”中所说明的;另一种是采用Σ(或R)的稳健估计,而不是计算成S(或 ),从而得到一个受异常值影响程度相对较小的估计(已超出了本书的范围)。 * 五、关于时间序列数据 在绝大多数场合下,时间序列数据x1,x2,?,xn彼此间不是独立的,而是相关的,从而不是一个简单随机样本。 此时,由x1,x2,?,xn算得的S一般将不再是Σ的无偏估计,尤其当x1,x2,?,xn彼此间的相关程度较高时,用S估计Σ一般会有较严重的偏差,S也就不适合作为Σ的估计了,连带 也不宜用来估计R了。 此时,从S(或 )出发进行的主成分分析(或其他分析,如第八章的因子分析等)是没有意义的。 * 可作主成分分析的时间序列例子 * 六、主成分用于聚类分析 1.用目测法在主成分得分图上聚类 2.对样品之间的距离计算主成分不如原始变量 3.费希尔判别函数比主成分更适用于对聚类结果的图形评估 * 1.用目测法在主成分得分图上聚类 当 的累计贡献率达到了一个较高百分比时,可将各样品 的得分画成如图7.3.3一样的散点图,然后用目测的方法直接在图上进行直观的聚类。 尽管仅使用两个主成分会使信息有所损失,但样品散点图中却常常包含着正规的聚类方法所反映不出的丰富信息,这也许能足以弥补因降维而造成的信息损失,并由此或许可以得到比正规聚类方法更为合理的聚类结果。 * 当取前三个主成分才能使累计贡献率达到了一个较高百分比时,可使用统计软件产生各样品得分的三维旋转图,通过该图的不断旋转用目测法作主观的聚类。 目测三维旋转图要比目测平面散点图困难许多,故在
有哪些信誉好的足球投注网站
文档评论(0)