- 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
AffinityPropagation算法介绍
AP聚类算法1.分类与聚类1.1 分类算法简介分类(classification )是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。在分类算法中输入的数据,或称训练集(Training Set),是一条条的数据库记录(Record)组成的。每一条记录包含若干条属性(Attribute),组成一个特征向量。训练集的每条记录还有一个特定的类标签(Class Label)与之对应。该类标签是系统的输入,通常是以往的一些经验数据。一个具体样本的形式可为样本向量:(v1, v2, ... , vn; c)。在这里vi表示字段值,c表示类别。分类的目的是:分析输入的数据,通过在训练集中的数据表现出来的特性,为每一个类找到一种准确的描述或者模型,这种描述常常用谓词表示。由此生成的类描述用来对未来的测试数据进行分类。尽管这些未来的测试数据的类标签是未知的,我们仍可以由此预测这些新数据所属的类。注意是预测,而不能肯定。我们也可以由此对数据中的每一个类有更好的理解。也就是说:我们获得了对这个类的知识。下面对分类流程作个简要描述:训练:训练集——特征选取——训练——分类器分类:新样本——特征选取——分类——判决常见的分类算法有:决策树、KNN法(K-Nearest Neighbor)、SVM法、VSM法、Bayes法、神经网络等。1.2 聚类算法简介聚类(clustering)是指根据“物以类聚”的原理,将本身没有类别的样本聚集成不同的组,这样的一组数据对象的集合叫做簇,并且对每一个这样的簇进行描述的过程。与分类规则不同,进行聚类前并不知道将要划分成几个组和什么样的组,也不知道根据哪些空间区分规则来定义组。它的目的是使得属于同一个簇的样本之间应该彼此相似,而不同簇的样本应该足够不相似。聚类分析的算法可以分为:划分法(Partitioning Methods)、层次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于网格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。经典的K-means和K-centers都是划分法。1.3 分类与聚类的区别聚类分析也称无监督学习或无指导学习,聚类的样本没有标记,需要由聚类学习算法来自动确定;在分类中,对于目标数据库中存在哪些类是知道的,要做的就是将每一条记录分别属于哪一类标记出来。聚类学习是观察式学习,而不是示例式学习。可以说聚类分析可以作为分类分析的一个预处理步骤。2. k-means算法k-means算法接受输入量k;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较低。簇的相似度是关于簇中对象的均值度量,可以看作簇的质心(centriod)或重心(center of gravity)。k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.,其定义如下:其中,E是数据集中所有对象的平方误差和,p是空间中的点,表示给定对象,是簇的均值(p和都是多维的)。换句话说,对于每个簇中的每个对象,求对象到其簇中心距离的平方,然后求和。这个准则试图使生成的k个结果簇尽可能的紧凑和独立。例1:我们在二维空间中随机的生成20个数据点,将聚类数目指定为5个,并随机生成一个聚类中心(用“×”来标注),根据对象与簇中心的距离,每个对象分属于最近的簇。初始示例图如下:图1.随机生成的数据点及初始聚类中心示例图下一步,更新簇中心。也就是说,根据簇中的当前对象,重新计算每个簇的均值。使用这些新的簇中心,将对象重新分成到簇中心最近的簇中。不断迭代上面的过程,直到簇中对象的重新分布不再发生,处理结束。最终的聚类结果示例图如下:图2. 最终聚类结果示例图从上图中我们可以看到,最终的聚类结果受初始聚类中心的影响很大,而且最后的簇质心点不一定是在数据点上。K均值算法试图确定最小化平方误差的k个划分。当结果簇是紧凑的,并且簇与簇之间明显分离时,它的效果较好。对处理大数据集,该算法是相对可伸缩的和有效率的,因为它的计算复杂度是O(nkt),其中n是对象的总数,k是簇的个数,t 是迭代的次数。通常地,kn并且tn。该方法经常终止于局部最优解。然而,只有当簇均值有定义的情况下k均值方法才能使用。在某些应用中,例如当涉及具有分类属性的数据时,均值
您可能关注的文档
最近下载
- 材料及配件采购方案.docx VIP
- 中国重症患者肠外营养治疗临床实践专家共识(2024).pptx VIP
- 2025年福建省中小学教师招聘考试真题及答案.docx VIP
- 人教版物理八上光的直线传播 (3).ppt VIP
- 2024年事业单位医疗卫生综合知识考试题库(含答案).pdf VIP
- 无痛纤支镜麻醉技术规范.pptx VIP
- 广东春季高考2025数学试卷.doc VIP
- 浙江省杭州市2024—2025学年高三上学期期末学业水平测试语文试题(含答案).doc.docx
- 专升本英语时态练习题.doc VIP
- 实验03 1-溴丁烷的化学性质-高二化学(人教版2019选择性必修3).docx VIP
文档评论(0)