- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 探索性数据分析方法本章的主要内容第1节 多维数据的可视化技术第2节 投影寻踪第3节 独立成分分析第4节 探索性数据分析案例第5节 探索性数据分析综合应用第1节 多维数据的可视化技术基于2变量的多维可视化技术目前采用基于2变量多维可视化技术的方法主要有散点图矩阵等散点图矩阵画出多个变量两两间的散点图以考察多变量关系。如果给定p个变量,则可以通过创建一个包含p行p列的散点图矩阵,其中的每行每列均唯一定义一个散点图。利用散点图矩阵,我们可以回答诸如两个变量之间是否具有成对关系,数据当中是否存在孤立点以及数据当中是否存在聚类等问题鸢尾花数据的散点图矩阵下图展示了鸢尾花数据在四个变量(花萼长、花萼宽、花瓣长、花瓣宽)下的分布形态基于多变量的多维可视化技术该技术是近来空间多维数据可视化技术的基础,它绝大部分都是采用通过高速图形计算生成的彩色图形来表示的。这种方法处理的数据量一般比较大,且可以处理复杂数据类型的多维信息。Chernoff face方法美国统计学家Chernoff于20世纪70年代最早提出用脸谱来表示多变量。按照Chernoff于1973年提出的画法,采用15个指标,各指标代表的面部特征为:1表示脸的范围;2表示脸的形状;3代表鼻子的长度;4代表嘴的位置;5代表笑容曲线;6表示嘴的宽度;7-11分别表示眼睛的位置、分开程度、角度、形状和宽度;12表示瞳孔的位置;13-15分别表示眉毛的位置、角度和宽度。根据各变量的取值,按照一定的数学函数关系,我们就可以确定脸的轮廓、形状和五官的位置、形状。Chernoff face方法Chernoff faces方法适合于在大量相似数据中发现奇异点,或者根据表情对数据进行聚类。不同的制图者可能会对同一变量选择不同的脸谱部位,因此对于同样的数据,可能会产生不同的显示结果。不足:无法表示数量很大的数据。平行坐标法平行坐标技术将多维数据点映射成二维平面上的折线且不损失信息,人们可以从折线的变化规律中发掘有价值的信息,显得相对简便直观。平行坐标的基本思想是在二维空间中采用等距离的竖直的 个平行坐标轴表示 维空间, 个变量值对应到 个平行坐标轴上,再将 个坐标轴上的点用连续线段连接起来表示一个空间点,这 条线段与 条坐标轴相交的 个点分别代表了数据点的 维数据。连接 个坐标轴上点的 条线段的折线可以用 个线性无关的方程所表示。鸢尾花数据的平行坐标图平行坐标法的优缺点优点:表达数据关系非常直观,易于理解,能够使用户快速、简便地从传统直角坐标系转换到平行坐标系,而不必使用矢量或其它可视图标。缺点:表达维数决定于屏幕的水平宽度,当维数增加,引起垂直轴靠近,辨认数据的结构和关系稍显困难,坐标间的依赖关系很强,垂直平行轴之间的安排序列性也是影响发现数据之间关系的重要因素,而且多维结构也是复杂的。目前有很多对平行坐标的改进技术,例如层次化的平行坐标技术。基于平行坐标数据可视化方法刷技术维数的控制数据抽象维度放缩交换坐标轴上钻下卷刷技术刷技术能够在平行坐标中将一部分折线突显而使其他折线不明显,如此能让用户更清晰直观地了解局部数据变化规律,更好地对关注部分进行集中分析。平行坐标表示的多维数据集上,我们可以利用刷技术交互选择数据区间和聚簇。常用的刷技术有两种,基于角度的刷技术以及基于结构的刷技术。刷技术基于角度的刷技术是根据相邻的两坐标轴间线段的斜率范围来确定需要刷的数据。在两条线段夹角范围内的数据将被突显,而没有涉及到的数据将不明显,便于用户具有针对性的分析和研究。基于结构的刷技术与平行坐标形成结构有很大的关系。被刷出的数据能够以不同的详细程度显示,数据范围比较灵活,可以是分层结构中的平均值,也可以是一段完整的区间范围。通过基于结构的刷技术能够实现将所选范围内的数据折线以更清晰的程序显示出来。维数的控制在平行坐标中,我们通过对数据属性数量进行控制,控制平行坐标维数,将我们关心的属性显示出来。这样做的优点是能够减小平行坐标图的复杂程度,同时还能减低不重要数据对结果的干扰,便于我们更好地对数据进行分析。刷技术突显部分数据但不减少维数,因此,刷常被看作是行分解,而对维数的控制改变了坐标的数量,因此被看作是列分解。数据的抽象平行坐标图本身就是一个抽象图形,它将多维数据抽象地表示在二维平面上,但是我们还可以对其进行更高层次的抽象,即数据的平均值显示,数据的平均值度量数据的中心趋势。折线的抽象基于边缘数据的汇总,在普通平行坐标中,用一系列折线的平均值来取代这些折线。当折线彼此交叠,数据直观分析比较困难时,用这种方式可以增强对数据变化趋势的理解,减少折线带来的混乱影响。维放缩主要应用在需要对局部数据放大观察的情况下。比如在完成刷的操作后,刷出的数据范围比较小,这时就可以将该子区域的数据用全局范围来显示,将局部放
有哪些信誉好的足球投注网站
文档评论(0)