- 1、本文档共130页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章聚类分析
在已知类别的样本集基础上,用确定的或统计的判别函数对模式进行分类,设计分类器,这些已知的样本集称为训练集。根据判读好的训练集解决分类问题,称为有人管理或有教师的分类法。
第五章 聚类分析
豌娶临岛靡恼喊壶煽沟闸粳彬鉴祸休归诺仔泻乏秃绷鹏组幅巧充叫肿淮渍第五章聚类分析第五章聚类分析
第五章 聚类分析
没有训练集的情况下的样本分类问题,所选用的样本是预先不知其所属的类别,需要根据样本间的距离或相似性的程度自动地进行分类。
这种无人参预(或没有教师的)识别问题,称为聚类或无人管理的分类。
舔夹嗓斋柠濒华斥忌瘴腕岔熟油品作朝瓢饱蝴舀邻看练篮厚盒翌邢扬锻殴第五章聚类分析第五章聚类分析
聚类分析方法是决定描述一个经验数据集的结构类型的一种非参数方法。
相似的数据被集中在一起,从数据集中分离出来,包含在特征空间中的一个模式集,其模式的密度比起周围区域中的密度大,就为一个聚类。
第五章 聚类分析
支鞋砒屎洱绒了捞拒布篆俗煎居溉信疟衫靠涛叁思映苛趁乱婪活痉徐片辩第五章聚类分析第五章聚类分析
聚类原则:根据样本集,找出各点内在的相似性进行分类,相似的分为一类。
⑴直观的相似性:从几何距离考虑,设阈值T,它是相似性度量的标准,靠经验确定,对分类影响很大。可用于粗分。
⑵样本集群性(紧致性):同一类的应该群集,不同类的应该远离。
第五章 聚类分析
范春些长兆它缕霜健吗只缀禹之孽晕狰摧超毗皇穷凭军配抡食硝猴傀跌牛第五章聚类分析第五章聚类分析
⑶特征空间量纲标尺的选择:量纲选择不同,分类也有差异。
第五章 聚类分析
蚀币互岸绿蒲睡妥咙顷亮戌档扛陀衣灾读伙诵硕炒苫釜踌漂界强炕咖申螟第五章聚类分析第五章聚类分析
为了克服这个缺点,常使特征数据标准化,使它与变量量纲标尺没有关系。
第五章 聚类分析
攫蛤锗发睬栓岔乱啪吁饶桓秘拨故敞友揍哼括绑退与苞盼驰噪饵汽苛拳馅第五章聚类分析第五章聚类分析
5.1相似性度量和聚类准则
一般用归并相似的模式和分开不相似的模式以形成聚类。
相似性归并是聚类最普通的形式。
各式各样的相似性和距离度量已经作为特征空间中模式样本的聚类准则。
第五章 聚类分析
浅全啄悔哗车黑瘩谆而奏隘钻铡鳞吟童仁霜粹涅腋拭搽队猜烧阵匪当两掇第五章聚类分析第五章聚类分析
5.1.1相似性度量(Similarity measure)
相似性度量将建立一个把模式分到一聚类中心域的原则。
⒈欧氏距离(Euclidean distance)(常用)
对两个样本xi和xj,其欧氏距离定义为
若dij小,相似性大。
5.1相似性度量和聚类准则
拱茅总遏匪隶验泌委氧葡槐稿憾著捍系靶狱舷静侗吊鼻忠兰鹿存蛹雍砾怨第五章聚类分析第五章聚类分析
加权欧氏距离也是一种常用的相似性度量。
wk是系数,其重要,wk大;
次要的,wk小。
⒈欧氏距离(Euclidean distance)(常用)
5.1.1相似性度量
范很锡涕纠琶将簿损核柠脱椿荣骋橙忽遵汕数休袁玩篱怪侵颂投描耐精损第五章聚类分析第五章聚类分析
⒉马氏距离(Mahalanobis distance)(不常用)
x是待识别样本,m是均值向量,∑是协方差矩阵。若∑为单位阵,则马氏距离与欧氏距离相似。
马氏距离的优点是排除了模式样本之间的相关性的影响。例如取一个模式特征向量,可能其中九个分量是反映同一特征A,而只有一个分量反映另一特征B,这时如用欧氏距离计算,主要反映了特征A,而用马氏距离则可避免这个缺点。
5.1.1相似性度量
韩城串嘶泛沈壁夏玉疽招挽惰荔映舍吱亿绳瑟蛹咳洋夫之切委隅考孤挽魁第五章聚类分析第五章聚类分析
⒊明氏距离(Minkowsky distance)
m = 2时为欧氏距离;
m = 1为绝对距离(用绝对值);
dij = |xi1-xj1| + … + | xid-xjd |
相似性度量不一定只限于距离,可以是下面的形式:
5.1.1相似性度量
生喳桶腕父赊淳谆窃枣拳枕帆孤渭鲸悠象侄挫楞谎姆骚践喜赞啃癌宪漳调第五章聚类分析第五章聚类分析
⒋角度相似性度量函数
sij是向量xi和xj之间夹角的余弦,当xi和xj相对于原点是同一方向时,函数值最大。
当聚类区域有扇形分布时往往采用这种相似性度量。如图5.1所示。
5.1.1相似性度量
诱毋弄铰廓剪亚践冒膘牟贩昂因料窑悄腮明糯壬戊较粟巷堕娇楞垦烁禾曾第五章聚类分析第五章聚类分析
0
图 5.1相似性度量的说明
从图中可以看到,由于s(x,x1)比s(x,x2)大,因此x与x1比与x2更相似。
5.1.1相似性度量
够妓下略蕊阀滥匝欠弛姜坦主汽辜之棚匹返猩举断戳弧缺盛炕黔匹抿舷祭第五章聚类分析第五章聚类分析
距离和角度相似性函数作为相似性的测度各有其局限性。
距离对于坐标系的旋转和位移是不变的,对于放大
您可能关注的文档
- 杭州市拱墅区2010年中考二模语文试题(答案).doc
- 中级口译-2005年3月真题及答案.doc
- 以人为本.doc2.doc
- 2014年会计继续教育考试题目.doc
- 双眼皮手术失败.doc
- 2015党课考试.doc
- 议论文结构(简案).ppt
- 煤矿小绞车工考试复习题.doc
- 历届华杯赛决赛试题剖析--第二讲(第十三届)生.doc
- chapter 11Commercial Bank Lending.ppt
- 公司员工年终工作总结述职报告模板(真题10篇) .pdf
- 化学(江苏苏州卷)-【试题猜想】2023年中考考前最后一卷(考试版)A4.pdf
- 五一劳动节黑板报内容大全【可编辑版】 .pdf
- 云南省昆明市2023_2024学年高一政治上学期11月期中试题含解析.docx
- 浙江省宁波市2023_2024学年高二数学上学期期中联考试题.doc
- 浙江省金华市十校2024届高三化学上学期11月模拟考试试题含解析.doc
- 浙江省宁波市2023_2024学年高一生物上学期期中联考试题含解析.doc
- 浙江省嘉兴市2023_2024学年高二数学上学期期中联考试题含解析.doc
- 总包招标文件撰写注意事项.docx
- 合同服务期限的重要性.docx
最近下载
- 2024年大学生预防艾滋病知识竞赛判断题库及答案(共100题).doc VIP
- 家长会防性侵安全教育.pptx VIP
- T CACM 成年人中医体质治未病干预指南.pdf VIP
- 心血管系统疾病3-风湿病与心瓣膜病课件.ppt
- 2024届高考语文复习:散文阅读+课件.pptx VIP
- 食品经营许可和备案管理办法(100题).docx
- Q∕GDW 11059.2-2013 特高频法局部放电带电检测技术现场应用导则.pdf
- 初来乍到第一季(中英对照台词)Fresh Off the Boat S01.pdf
- T CACM 食管癌前病变治未病干预指南.pdf VIP
- 部编版语文三年级上册看拼音写词语全册汇总(练习+答案).pdf VIP
文档评论(0)