自动分组.docVIP

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自动分组

自动分班 系别:信息与计算科学 班级:10级5班 姓名:赵孝良 学号:2010201152 问题描述 不同学科、不同学生个体之间存在很大差异。如何根据多门课程成绩进行分班,使同一类学生尽可能被分在同一个班级,是人们普遍关注的问题。该问题是寻求最佳分班策略,实现分层次教学。 二、数据来源:教务处学生成绩统计表 三、问题分析 由于指标较多,现采用降维的思想,采用主成分分析法,选出m个主成分,计算最终得分,对得分进行排序,根据排序结果分班。 降维原则: 散度最大:数据降维后,尽可能散开; 距离保持:重建距离最小。 四、问题求解 (一)主成分分析 主成分分析(Principal Components Analysis)是由Hotelling于1933年首先提出的,它是利用降维的思想,把多指标转化为少数几个综合指标的多元统计分析方法。 对原始变量相关矩阵结构关系进行研究,找出影响某一过程的几个综合指标,使综合指标变为原来变量的线性组合,从而不仅保留了原始变量的主要信息,彼此之间又不相关,更有助于抓住主要矛盾。 Matlab主成分分析的结果见表1。各学生得分的一维投影图见图一。选取前三个主成分,各主成分分布见图二。根据主成分分班后的三维分布图见图三。一至三班分别用绿、红、蓝标注。 表1 分班结果 class1 class2 class3 苟志恒 赵孝良 李华清 吕志超 吴其诚 张珍 马铭远 王智强 张阳阳 李伟 姚栋杰 杨娜娜 赵广力 王万超 李根 王鑫 李亚杰 丁海倩 陈传利 刘晓东 岳丰云 郑国梁 房荔玲 李菲菲 张萌 郝金萍 王兆权 徐亮 陈为辉 赵萌 胡祥廷 刘广明 王昭君 张志华 卞俊杰 张海军 高贵华 刘清兴 孔鹏 刘鹏 吴国启 赵鹏飞 王珍开 张宾 甘振文 王海博 马香玉 李悦悦 侯俊振 何秋云 许俊娟 薛可旺 王先超 袁顺 郝寒冰 甄晓慧 赵秋红 杨泽坤 张忠宽 王杰 孟庆上 孙文雪 宋盼盼 刘万祥 路成宽 刘秀 张以峰 徐振宇 许媛媛 张聪 王晓君 任巧丽 崔小磊 张标 韩甜甜 图一 图二 主成分载荷 图三 三维分布图 主成分分析也存在着缺陷:距离不是很近的两点,有可能投影后,距离变近了。下面采用聚类分析进行解决。 (二)聚类分析 聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。 聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。本文主要采用层次聚类与K-means聚类进行分析。 系统聚类的基本步骤 构造n个类,每个类包含且只包含一个样品。 计算n个样品两两间的距离,构成距离矩阵,记作D0。 合并距离最近的两类为一新类。 计算新类与当前各类的距离。若类的个数等于1,转到步骤(5),否则回到步骤(3)。 画聚类图。 决定类的个数,及各类包含的样品数,并对类作出解释。 为了将样品(或指标)进行分类,就需要研究样品之间关系。 目前用得最多的方法有两个,一种方法:另一种方法: 绝对值距离 2、欧氏(Euclidean)距离 3、切比雪夫(Chebychev)距离 4、明氏(Minkowski)距离 层次聚类 层次聚类是基于距离的聚类方法,MATLAB中通过pdist、linkage、cluster、dendrogram等函数来完成。步骤如下: (1) 确定对象(实际上就是数据集中的每个数据点)之间的相似性,实际上就是定义一个表征对象之间差异的距离,例如最简单的平面上点的聚类中,最经常使用的就是欧几里得距离。 (2) 确定好了对象间的差异度(距离)后,就可以用Z=linkage(Y)来产生层次聚类树了。 (3)初步的聚类树画完后,还要做很多后期工作的,包括这样的聚类是不是可靠,是不是代表了实际的对象分化模式,对于具体的应用,应该怎样认识这个完全版的聚类树,产生具有较少分叉的可供决策参考的分类结果呢?这都是需要考虑的。 MATLAB中提供了cluster, clusterdata, cophenet, inconsistent等相关函数。 cluster用于剪裁完全版的聚类树,产生具有一定cutoff的可用于参考的树。 clusterdata可以认为是pdist,linkage,cluster的综合,当然更简易一点。 cophenet和inconsistent用来计算某些系数,前者用于检验一定算法下产生的二叉聚类树和实际情况的相符程度(就是检测二叉聚类树中各元素间的距离和pdist计算产生的实际的距离之间有多大的相关性),inc

文档评论(0)

zhuliyan1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档