- 1、本文档共5页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R中的距离与聚类
R中的距离与聚类
2013-9-3 09:52| 发布者: 天空之城| 查看: 7373| 评论: 0|原作者: 马恩驰|来自: Data Science@马恩驰
摘要: 聚类是建模的起点,在没有目标的前提下,对研究对象按照距离分为不用的组。组内的距离尽可能小,组间距离尽可能大;最常用的两种聚类方法是系统聚类和k-means。
简介:
聚类是建模的起点,在没有目标的前提下,对研究对象按照距离分为不用的组。组内的距离尽可能小,组间距离尽可能大;最常用的两种聚类方法是系统聚类和k-means;
系统聚类是基于距离的聚类,计算量相对较大;相比之下k-means因计算量小,占内存小,方法简单而应用范围更广,尤其是在目前数据量比较大的情况下。
系统聚类:
系统聚类的思想是把每个样本看成一类,计算两两之间的距离,把距离最近的两个样本合并为一个新类,计算新类与其他样本的距离,对距离最近的再次合并,重复此过程,直到所有样本合并为一类;系统聚类的关键点为距离和不同量纲数据的标准化。
系统聚类主要函数介绍:
基于iris数据集的实例:
k-means聚类:
k-means分类的思想是:先粗略分一下类,然后按照某种最优原则修改不合理的分类,直至分类趋于合理。
(iris.km -kmeans(iris,3))
K-means clustering with 3 clusters of sizes 50, 62, 38
Cluster means:
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 5.006000 3.428000 1.462000 0.246000
2 5.901613 2.748387 4.393548 1.433871
3 6.850000 3.073684 5.742105 2.071053
## 聚类后的类标号,因为iris数据按照类别排列,发现2与3类别相对模糊;类别1聚类效果较好
Clustering vector:
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[46] 1 1 1 1 1 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2
[91] 2 2 2 2 2 2 2 2 2 2 3 2 3 3 3 3 2 3 3 3 3 3 3 2 2 3 3 3 3 2 3 2 3 2 3 3 2 2 3 3 3 3 3 2 3
[136] 3 3 3 2 3 3 3 2 3 3 3 2 3 3 2
## 基于方差变异分解的思想,组间方差越大效果越好;
Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
(between_SS / total_SS = 88.4 %)
## 聚类结果中的组件,可类似看成list中的元素;
Available components:
[1] cluster centers totss withinss tot.withinss betweenss
[7] size
plot(iris[c(Sepal.Length, Sepal.Width)], col = km$cluster)
## 画聚类的中心
points(km$centers[,c(Sepal.Length, Sepal.Width)], col = 1:3,pch = 8, cex=2)
聚类的最终目的是生成优良的”簇“,我理解簇是数据业务层面的理解;做一个好的聚类可能要有多轮循环,基于现有的数据聚类,簇评估及发现线索,基于新发现的线索对数据进行处理再次聚类,这其中可能包含数据指标的再提取、离异点的删除、数据的变换等
您可能关注的文档
最近下载
- 必威体育精装版非计划再次手术登记表.docx VIP
- 专题1.11 探索三角形全等的条件(HL)(分层练习)-2023-2024学年八年级数学上册基础知识专项突破讲与练(苏科版).docx VIP
- 食源性疾病暴发事件应急处置技术方案.doc VIP
- 2013造价实训案例第六题通用安装电气及自动化工程电气设备照明.pdf
- 2024跟踪光伏支架技术规范.docx
- 湘文艺版 五年级音乐上册第4课《(演唱)祖国印象》教学设计.doc
- 2024届各地必威体育精装版模考语言文字运用新题(精选20题)教师版公开课教案教学设计课件资料.docx VIP
- 专题1.22 全等三角形几何模型(一线三垂直)(分层练习)(综合练)-2023-2024学年八年级数学上册基础知识专项突破讲与练(苏科版).docx VIP
- 罐头装箱机的设计毕业设计论文.doc
- 作业的布置-批改.ppt VIP
文档评论(0)