一种基于非参数贝叶斯模型的聚类算法.pdfVIP

一种基于非参数贝叶斯模型的聚类算法.pdf

  1. 1、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于非参数贝叶斯模型的聚类算法

第26卷第4期,2013年l0月 宁 波 大学 学 报 (理 工 版 ) 首届中国高校优秀科技期刊奖 Vo1.26No4,Oct.2013 JOURNALOFNINGBOUNIVERSITY(NSEE) 浙江省优秀科技期刊一等奖 一 种基于非参数贝叶斯模型的聚类算法 张媛媛 (宁波大学 信息科学与工程学院,浙江 宁波 315211) 摘要:鉴于聚类分析是机器学习和数据挖掘领域的一项重要技术,并且与监督学习不同的是聚 类分析 中没有类别或标签的指导信息,所以如何选择合适的聚类个数(re模型选择)一直是聚类 分析 中的难点.由此提 出了一种基于Dirichlet过程混合模型的聚类算法,并用collapsedGibbs采 样算法对混合模型的参数进行估计.新算法基于非参数贝叶斯模型的框架,能够在不断的采样 过程中优化模型参数并形成合适的聚类个数.在人工合成数据集和真实数据集上的聚类实验结 果表明:基于Dirichlet过程混合模型的聚类算法不但能够 自动确定聚类个数 而且具有较强灵活 性和鲁棒性. 关键词:非参数贝叶斯模型;Dirichlet过程混合模型;聚类分析;Gibbs采样 中图分类号:TP391 文献标志码:A 文章编号:1001—5132(2013)04—0024—05 聚类分析是指在没有类别或标签信息的情况 能力较弱,尽管对训练样本数据拟合得较好,但对 下,将一组数据(或模式)进行分类的统计分析方法. 未知数据可能拟合不好. 经过聚类分析后,属于同类的数据比在不同类中 针对以上 问题 ,笔者设计实现了一种基于 的数据更具相似性.经典的聚类算法有 K均值聚 Dirichlet过程混合模型(DirichletProcessMixture 类算法(KmeansAlgorithm)、基于EM(Expectation Model,DPMM)的非参数聚类方法.它为模型选择 Maximization)优化的有限混合模型(FiniteMixture 问题提供了一个比较灵活的解决之道,是一种非 Models)算法以及基于密度的方法 (Density.based 参数贝叶斯模型(NonparametricBayesianModels), Methods)等[】].但是这些算法都需要预先设定聚 也是近年来统计学习理论的研究热点4【J.与传统 类或混合部件的个数,若个数选择不当会直接导 的参数模型相比,DPMM 采用单一复杂的混合模 致模型的过拟合或欠拟合情况的发生.因此,如何 型,并根据观测数据 自动优化模型的结构,使模型 选择合适的聚类个数是聚类分析的关键,也是模 的分布参数随着观测数据进行调整 【卜引.实验结果 式分类中的模型选择问题.针对此问题,一种直接 表明,当 DPMM 用于聚类分析时,无需预先指定 的解决方式是尝试所有可能聚类个数的模型结构, 类别数,而是根据观测数据 自动计算 目前所需的 然后根据一定准则折中选取一个最优的、不易发生 类别数,并以概率方式允许将来的新数据出现时 过拟合或欠拟合的模型.常见评价方法有基于编 产生新的类别.在计算 DPMM 后验概率时,由于 码理论和最小信息长度的准~]Jl(Minimum Message 后验概率不能被直接计算,所以我们采用Gibbs采 Length,MML)、Akaike信息准~]1(Akaike’SInforma 样法反复从条件分布 中采样并更新模型参数. tionCriterion,AIC)、贝叶斯信息准则(Bayesian Gibbs采样法属马尔可夫链蒙特卡罗方法(Markov InformationCriterion、BIC)和最小描述长度准则 ChainMonteCarlo,MCMC),是替代精确推理的近 (Minimum DescriptionLength,MDL)J.但是现有 似推理方法.和其它MCMC算法一

文档评论(0)

hello118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档